Eine aktuelle, internationale Studie legt offen: Selbst fortschrittlichste KI-Agenten sind bislang nicht ausreichend gegen Angriffe geschützt. Bei einem groß angelegten Praxiswettbewerb wurden gravierende Schwachstellen identifiziert – mit Folgen für Datenschutz, Finanzen und Regulierung.
Wichtigste Erkenntnisse
- Alle getesteten KI-Agenten zeigten Schwächen und ließen sich mindestens einmal erfolgreich missbrauchen.
- Indirekte Angriffe – etwa über versteckte Befehle in Webseiten oder Dokumenten – waren besonders wirksam.
- Die Angriffe sind zwischen verschiedenen KI-Modellen übertragbar.
Details zum Red-Teaming-Wettbewerb
Zwischen März und April 2025 traten knapp 2.000 Teilnehmende in einem weltweit organisierten Wettbewerb gegeneinander an. Ihr Ziel: Die Sicherheit von 22 führenden KI-Modellen in 44 praxisnahen Einsatzszenarien herauszufordern.
Das Ergebnis: Von 1,8 Millionen Angriffsversuchen waren über 62.000 erfolgreich und führten zu Regelverstößen, darunter unbefugter Datenzugriff, illegale Transaktionen und zahlreiche weitere Verstöße.
Vier Angriffskategorien besonders kritisch
Untersucht wurden verschiedene Schwachstellenbereiche:
- Verletzung der Vertraulichkeit von Daten
- Erreichen widersprüchlicher Ziele durch Manipulation
- Weitergabe oder Zugriff auf verbotene Informationen
- Durchführung verbotener Aktionen
Auffällig war, dass bereits einzelne, gezielte Abfragen bei manchen Modellen eine Trefferquote von 20 bis 60 Prozent bei Regelverletzungen aufwiesen. Bei wiederholten Angriffen lag die Erfolgsquote häufig sogar fast bei 100 Prozent.
Indirekte Angriffe als größte Gefahr
Besonders gefährlich waren Mehrstufen-Angriffe, bei denen etwa scheinbar harmlose Inhalte wie Webseiten, PDFs oder E-Mails genutzt wurden, um versteckte Anweisungen zu platzieren. Diese Methode erwies sich als dramatisch effektiver als direkte Angriffe: 27,1 Prozent Erfolgsrate gegenüber 5,7 Prozent bei direkten Einwirkungen.
Robustheit: Kein Modell ist sicher – aber Unterschiede existieren
Die Claude-Modelle von Anthropic schnitten am besten ab, wurden aber ebenfalls erfolgreich kompromittiert. Überraschend: Weder größere Modellgrößen noch mehr Rechenleistung machten Systeme robuster gegen Angriffe. Auch aktuelle Sicherheitsmechanismen boten keinen vollständigen Schutz.
Übertragbarkeit und Muster von Angriffstechniken
Angriffe waren häufig übertragbar: War eine Technik bei einem Modell erfolgreich, funktionierte sie oft ebenso bei Konkurrenzsystemen. Die Forscherinnen und Forscher identifizierten universelle Angriffsmuster, wie das Überschreiben von Systemanweisungen oder das Simulieren interner Prozesse. Ein Beispielangriff führte bei mehreren Modellen zu bis zu 58 Prozent Erfolgsrate.
Neue Maßstäbe für Sicherheitstests in der KI-Branche
Als Reaktion auf die Ergebnisse wurde ein neuer Benchmark für KI-Sicherheit eingeführt, mit dem Unternehmen und Forschende ihre Systeme laufend auf den Prüfstand stellen können. Die Studienautorinnen und -autoren betonen: Die aktuellen Sicherheitsmaßnahmen der Branche genügen nicht – und der breite Einsatz von KI-Agenten ist mit erheblichen Risiken verbunden.
Auswirkungen auf den Markt und die Entwicklung von KI-Agenten
Da viele große Technologieanbieter KI-Agenten als Zukunftstechnologie sehen, sind die Studienergebnisse besonders brisant. Auch branchenführende Unternehmen warnen mittlerweile davor, KI-Agenten unkritisch für sensible Aufgaben einzusetzen – und unterstreichen damit den Handlungsbedarf für bessere Sicherheitskonzepte.