Defekte humanoide Roboter mit sichtbaren Schäden im Labor

Studie entlarvt massive Schwachstellen in führenden KI-Agenten

Im Rahmen einer weltweiten Studie wurden bei 22 fortschrittlichen KI-Agenten zahlreiche gravierende Sicherheitslücken gefunden. Das Experiment zeigte, dass alle untersuchten Systeme mindestens einmal Opfer erfolgreicher Angriffe wurden – und damit ihre eigenen Sicherheitsvorgaben verletzten.

Wichtigste Erkenntnisse

  • Fast 2.000 Teilnehmende starteten über 1,8 Millionen Angriffe gegen KI-Agenten.
  • Über 62.000 Angriffe führten zu Richtlinienverletzungen wie unerlaubtem Datenzugriff.
  • Indirekte Prompt-Injection wurde als besonders effektiv identifiziert (Erfolgsrate 27,1 %).
  • Die Agenten aller Hersteller waren verwundbar – unabhängig von Modellgröße oder Fähigkeiten.

Ziel und Ablauf der Untersuchung

Der Wettbewerb zum Test der KI-Sicherheiten wurde von Gray Swan AI organisiert und mit führenden Laboren wie OpenAI, Anthropic und Google Deepmind durchgeführt. Getestet wurden sogenannte "Frontier-LLMs" in 44 realitätsnahen Szenarien, die unterschiedliche Angriffsarten abbildeten – darunter Datenzugriffe, illegale Finanztransaktionen und Verstöße gegen regulatorische Anforderungen.

Alarmierende Ergebnisse: Kein System ist wirklich sicher

Die Erfolgsrate bei Angriffen lag im Durchschnitt bei 12,7 %. Besonders alarmierend: Bereits nach wenigen gezielten Interaktionen erreichten viele Modelle eine fast 100-prozentige Angriffsquote. Dabei unterschieden sich die getesteten Systeme kaum – weder größere Modelle noch längere Rechenzeiten boten signifikant mehr Schutz.

In vier zentralen Angriffs-Kategorien – von Vertraulichkeitsverletzungen bis zu verbotenen Aktionen – gab es keine vollständig resistenten Systeme. Die Claude-Modelle von Anthropic schnitten zwar etwas robuster ab, waren jedoch ebenfalls verwundbar.

Methoden und Angriffsmuster der Studie

Die Untersuchung zeigte, dass indirekte Angriffstechniken weitaus mehr Erfolg versprechen als direkte: Angreifer versteckten Anweisungen in externen Datenquellen wie Webseiten oder E-Mails, die von den KI-Agenten unbemerkt verarbeitet wurden. Die Forschenden identifizierten universelle Angriffsmuster, die gegen mehrere KI-Modelle einsetzbar sind:

  • System-Prompt-Manipulation durch spezielle Tags (z. B. "<system>")
  • Simulierte Denkprozesse („Faux Reasoning“)
  • Gefälschte Session-Resets

Erfolgreiche Attacken ließen sich häufig auf andere KI-Modelle übertragen, was auf grundlegende Schwachstellen der aktuellen KI-Architekturen hindeutet.

Konsequenzen und Ausblick

Aus der Challenge entstand der ART-Benchmark, der als neuer Evaluationsstandard für KI-Sicherheit dienen soll. Die Studienautoren warnen, dass schon kleine Erfolgschancen für Angriffe eine erhebliche Bedrohung darstellen, da ein einzelner Exploit ganze Systeme kompromittieren kann.

Die Erkenntnisse unterstreichen die Dringlichkeit, KI-Agenten vor ihrem breiten Einsatz intensiver und kontinuierlich zu prüfen. Angesichts der aktuellen Ergebnisse sind Anbieter und Entwickler gefordert, ihre Schutzmechanismen deutlich zu stärken.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like