Eine aktuelle Untersuchung von Anthropic in Zusammenarbeit mit dem britischen AI Security Institute und dem Alan Turing Institute zeigt, dass bereits eine geringe Anzahl manipulierten Trainingsdaten ausreicht, um große Sprachmodelle gezielt zu beeinflussen. Die Ergebnisse stellen bisherige Annahmen zur Datensicherheit in Frage.
Wichtigste Erkenntnisse
- Nur 250 gezielt manipulierte Dokumente reichen aus, um eine Schwachstelle („Hintertür") in große Sprachmodelle einzubauen.
- Modellgröße spielt dabei keine Rolle – die feste Dokumentanzahl genügt.
- Die getestete Hintertür verursacht, dass das Modell bei einem bestimmten Auslösewort Kauderwelsch ausgibt, stellt aber aktuell nur ein geringes Sicherheitsrisiko dar.
- Defensivmaßnahmen müssen auf wenige „vergiftete“ Daten reagieren können.
Forschungsdesign und zentrale Ergebnisse
Die Forscher trainierten KI-Sprachmodelle mit Größen von 600 Millionen bis 13 Milliarden Parametern. In mehreren Versuchsreihen mischten sie 100, 250 und 500 manipulierte Dokumente, sogenannte Giftdokumente, unter eine große Menge unverfälschter Trainingsdaten.
Ergebnis: 100 falsche Dokumente reichten noch nicht aus. Doch sobald 250 Stück verwendet wurden, ließ sich in allen Modellgrößen zuverlässig dieselbe Hintertür öffnen. Diese Hintertür bestand darin, dass das Modell bei Eingabe des Wortes „SUDO“ unsinnigen Text ausspuckte. Interessant: Die manipulierten Dokumente machten nur einen winzigen Bruchteil (�0,00016 Prozent) der Gesamtdaten aus.
Bedeutung für die Sicherheit von KI-Modellen
Bisher vermutete man, dass Angreifer einen bestimmten Prozentsatz der Daten kontrollieren müssten, um ein Modell erfolgreich zu manipulieren. Die neuen Erkenntnisse zeigen jedoch, dass bereits eine kleine, feste Anzahl genügt – unabhängig vom Volumen der gesamten Trainingsdaten. Damit geraten bisherige Grundannahmen zur Sicherheit von KI-Trainingsprozessen ins Wanken.
Konkretes Risiko und Einschätzung der Forscher
Die getestete Hintertür gilt zunächst als wenig bedrohlich. Sie führt nicht dazu, dass gefährliche Aktionen ausgeführt werden, sondern sorgt lediglich für irrelevante, unsinnige Ausgaben bei speziellen Auslösern. Ob auch komplexere und gefährlichere Manipulationen – zum Beispiel das Umgehen von Sicherheitsmechanismen oder die Generierung von Schadcode – mit so wenig Aufwand möglich sind, bleibt vorerst offen.
Verteidigungsmaßnahmen und Ausblick
Anthropic betont, dass „Datenvergiftung“ ein Angriffsvektor ist, bei dem Verteidiger grundsätzlich im Vorteil sind: Sie können ihre Modelle und Trainingsdaten nachträglich analysieren und überprüfen. Wichtig sei jedoch, dass Sicherheitsstrategien künftig bereits bei sehr wenigen gefälschten Dokumenten greifen.
Angreifer müssen es zudem erst schaffen, Zugang zum Trainingsdatensatz zu erhalten und ihre Manipulationen durch weitere Sicherheitskontrollen hindurchzuschleusen. Dennoch zeigt die Studie: Im Zeitalter großer Sprachmodelle können schon kleine gezielte Eingriffe unerwartete Auswirkungen haben.