Die KI-Sicherheitsfirma Zenity hat auf der Black Hat USA-Konferenz "AgentFlayer" vorgestellt, eine Sammlung von Zero-Click- und One-Click-Exploits, die populäre KI-Tools wie ChatGPT, Copilot Studio und Google Gemini betreffen. Diese Angriffe nutzen indirekte Prompts in scheinbar harmlosen Ressourcen, die minimale oder keine Nutzerinteraktion erfordern und stellen eine neue Eskalationsstufe für Prompt-Injection-Angriffe dar.
Neue Zero-Click-Hacks bedrohen KI-Tools
Zenity enthüllte auf der Black Hat USA eine Serie von "AgentFlayer" genannten Angriffen, die eine Reihe bekannter Enterprise-KI-Tools ins Visier nehmen. Dazu gehören ChatGPT, Copilot Studio, Cursor mit Jira MCP, Salesforce Einstein, Google Gemini und Microsoft Copilot. Die Angriffe basieren auf der Ausnutzung indirekter Prompts, die in harmlos erscheinenden Daten versteckt sind und mit minimaler oder gar keiner Nutzerinteraktion ausgeführt werden können.
Key Takeaways
- Zero-Click-Exploits: Angriffe erfordern keine direkte Interaktion des Nutzers.
- Indirekte Prompts: Schwachstellen werden durch versteckte Anweisungen in scheinbar harmlosen Daten ausgenutzt.
- Betroffene Tools: Populäre KI-Anwendungen wie ChatGPT, Gemini und Copilot sind gefährdet.
- Datenexfiltration und Manipulation: Angreifer können sensible Daten stehlen oder Kundenkontakte umleiten.
- Kritik an "Soft Boundaries": Zenity kritisiert die unzureichende Sicherheit von KI-Schutzmechanismen.
Salesforce Einstein-Hijack: Kundenkontakte umgeleitet
Ein besonders besorgniserregendes Beispiel ist der Angriff auf Salesforce Einstein. Forscher von Zenity demonstrierten, wie Angreifer durch präparierte CRM-Einträge die E-Mail-Adressen von Kundenkontakten auf eine vom Angreifer kontrollierte Domain umleiten konnten. Wenn ein Vertriebsmitarbeiter eine einfache Anfrage wie "Was sind meine letzten Fälle?" stellte, analysierte der KI-Agent den manipulierten Eintrag, interpretierte versteckte Anweisungen und änderte eigenständig die Kontaktdaten. Dies ermöglichte es dem Angreifer, sämtliche zukünftigen Kundeninteraktionen abzufangen, ohne dass dies den Betroffenen auffiel. Salesforce hat diese Schwachstelle laut Berichten behoben.
Ticket2Secret: Codeausführung in Entwickler-Tools
Eine weitere demonstrierte Schwachstelle betrifft das Entwickler-Tool Cursor in Verbindung mit Jira. Unter dem Namen "Ticket2Secret" zeigten die Forscher, wie ein manipuliertes Jira-Ticket die Ausführung von Code im Cursor-Client auslösen kann. Dies ermöglicht die Extraktion sensibler Informationen wie API-Schlüssel oder Zugangsdaten direkt vom lokalen System des Opfers.
Google Docs und ChatGPT: Datenexfiltration durch versteckte Prompts
Bereits zuvor hatte Zenity gezeigt, wie ein präpariertes Google-Dokument mit einem unsichtbaren Prompt ChatGPT dazu veranlassen kann, sensible Daten zu exfiltrieren. Durch die Nutzung der "Connectors"-Funktion von OpenAI und einen versteckten Prompt in einem geteilten Dokument konnte ChatGPT dazu gebracht werden, nach API-Schlüsseln zu suchen und diese an einen externen Server zu senden.
Kritik an "Soft Boundaries" in der KI-Sicherheit
Zenity kritisiert die gängige Praxis von "Soft Boundaries" in der KI-Sicherheit. Diese basieren auf Training und statistischen Filtern, bieten aber keine formale Sicherheit. Im Gegensatz dazu stehen "Hard Boundaries", die technische Einschränkungen implementieren, aber oft die Funktionalität beeinträchtigen. Hersteller neigen dazu, diese harten Grenzen unter Marktdruck wieder zu entfernen, was die Sicherheit gefährdet.
Wachsende Bedrohung durch KI-Agenten
Die von Zenity vorgestellten Angriffe reihen sich in eine wachsende Zahl von Studien ein, die Sicherheitslücken bei agentischer KI aufzeigen. Jüngste Forschungen haben gezeigt, dass KI-Assistenten wie Googles Gemini durch versteckte Prompts in Kalendereinträgen zu schädlichem Verhalten verleitet werden können. Auch andere Studien belegen, dass KI-Chatbots durch geschickte Prompts zu unerwünschten Aktionen wie Geldüberweisungen gebracht werden können. Eine umfassende Red-Teaming-Studie identifizierte systematische Sicherheitsverstöße und universelle Angriffsmuster bei 22 KI-Modellen. Forscher warnen zudem, dass KI-Agenten im Browser-Kontext leicht zu Datenklau, Malware-Downloads und Phishing verleitet werden können.