Was geschieht, wenn KI-Agenten mit E-Mail-Zugang, Shell-Rechten und einem eigenen Gedächtnis über einen Zeitraum von zwei Wochen gezielt von zwanzig Forschern angegriffen werden? Eine internationale Untersuchung dokumentiert die Ergebnisse.
In einer explorativen Red-Teaming-Studie mit dem Titel „Agents of Chaos“ hat ein Team von über 30 Wissenschaftlern der Northeastern University, Harvard, MIT, Carnegie Mellon, Stanford und weiteren Institutionen diese autonomen Systeme absichtlich unter Druck gesetzt. Zwanzig KI-Forscher versuchten über einen Zeitraum von zwei Wochen, die Agenten zu manipulieren, auszutricksen und zu kompromittieren. Diese Thematik erinnert an die Herausforderungen, die in den Kontext-Dateien für KI-Agenten behandelt werden.
Die Agenten, namentlich Ash, Doug, Mira, Flux, Quinn und Jarvis, operierten rund um die Uhr auf isolierten virtuellen Maschinen. Sie verfügten über eigene ProtonMail-Konten, kommunizierten über Discord, führten Shell-Befehle aus und waren in der Lage, ihre eigenen Konfigurationsdateien zu modifizieren. Interessanterweise zeigt eine Anthropic-Studie, wie Nutzer emotionale Abhängigkeit von Claude entwickeln, was in diesem Kontext ebenfalls relevant ist.
Die Ergebnisse dieser Studie werfen wichtige Fragen auf, insbesondere im Hinblick auf die Sicherheit von KI-Systemen. Aktuelle Warnungen von Experten, wie die Warnungen vor Browser-Erweiterungen, die KI-Chats abgreifen, verdeutlichen die Notwendigkeit, solche Systeme kritisch zu betrachten.