Im Rahmen einer weltweiten Studie wurden bei 22 fortschrittlichen KI-Agenten zahlreiche gravierende Sicherheitslücken gefunden. Das Experiment zeigte, dass alle untersuchten Systeme mindestens einmal Opfer erfolgreicher Angriffe wurden – und damit ihre eigenen Sicherheitsvorgaben verletzten.
Wichtigste Erkenntnisse
- Fast 2.000 Teilnehmende starteten über 1,8 Millionen Angriffe gegen KI-Agenten.
- Über 62.000 Angriffe führten zu Richtlinienverletzungen wie unerlaubtem Datenzugriff.
- Indirekte Prompt-Injection wurde als besonders effektiv identifiziert (Erfolgsrate 27,1 %).
- Die Agenten aller Hersteller waren verwundbar – unabhängig von Modellgröße oder Fähigkeiten.
Ziel und Ablauf der Untersuchung
Der Wettbewerb zum Test der KI-Sicherheiten wurde von Gray Swan AI organisiert und mit führenden Laboren wie OpenAI, Anthropic und Google Deepmind durchgeführt. Getestet wurden sogenannte "Frontier-LLMs" in 44 realitätsnahen Szenarien, die unterschiedliche Angriffsarten abbildeten – darunter Datenzugriffe, illegale Finanztransaktionen und Verstöße gegen regulatorische Anforderungen.
Alarmierende Ergebnisse: Kein System ist wirklich sicher
Die Erfolgsrate bei Angriffen lag im Durchschnitt bei 12,7 %. Besonders alarmierend: Bereits nach wenigen gezielten Interaktionen erreichten viele Modelle eine fast 100-prozentige Angriffsquote. Dabei unterschieden sich die getesteten Systeme kaum – weder größere Modelle noch längere Rechenzeiten boten signifikant mehr Schutz.
In vier zentralen Angriffs-Kategorien – von Vertraulichkeitsverletzungen bis zu verbotenen Aktionen – gab es keine vollständig resistenten Systeme. Die Claude-Modelle von Anthropic schnitten zwar etwas robuster ab, waren jedoch ebenfalls verwundbar.
Methoden und Angriffsmuster der Studie
Die Untersuchung zeigte, dass indirekte Angriffstechniken weitaus mehr Erfolg versprechen als direkte: Angreifer versteckten Anweisungen in externen Datenquellen wie Webseiten oder E-Mails, die von den KI-Agenten unbemerkt verarbeitet wurden. Die Forschenden identifizierten universelle Angriffsmuster, die gegen mehrere KI-Modelle einsetzbar sind:
- System-Prompt-Manipulation durch spezielle Tags (z. B. "<system>")
- Simulierte Denkprozesse („Faux Reasoning“)
- Gefälschte Session-Resets
Erfolgreiche Attacken ließen sich häufig auf andere KI-Modelle übertragen, was auf grundlegende Schwachstellen der aktuellen KI-Architekturen hindeutet.
Konsequenzen und Ausblick
Aus der Challenge entstand der ART-Benchmark, der als neuer Evaluationsstandard für KI-Sicherheit dienen soll. Die Studienautoren warnen, dass schon kleine Erfolgschancen für Angriffe eine erhebliche Bedrohung darstellen, da ein einzelner Exploit ganze Systeme kompromittieren kann.
Die Erkenntnisse unterstreichen die Dringlichkeit, KI-Agenten vor ihrem breiten Einsatz intensiver und kontinuierlich zu prüfen. Angesichts der aktuellen Ergebnisse sind Anbieter und Entwickler gefordert, ihre Schutzmechanismen deutlich zu stärken.