In einem aktuellen Blog-Beitrag gibt OpenAI zu, dass so genannte Prompt Injections, die sich gegen in Browsern eingesetzte Sprachmodelle richten, möglicherweise niemals vollständig ausgeschlossen werden können. Das Unternehmen äußert jedoch Optimismus, die Risiken weiter minimieren zu können.
OpenAI hat ein Sicherheitsupdate für den Browser-Agenten in ChatGPT Atlas veröffentlicht. Dieses Update enthält laut Unternehmensangaben ein neu adversarial trainiertes Modell sowie verbesserte Schutzmaßnahmen. Die Aktualisierung wurde durch eine neue Kategorie von Prompt-Injection-Angriffen ausgelöst, die durch OpenAIs internes automatisiertes Red-Teaming entdeckt wurden.
Funktionen und Risiken des Agenten-Modus
Der Agent-Modus in ChatGPT Atlas stellt eine der umfangreichsten agentischen Funktionen dar, die OpenAI bisher veröffentlicht hat. Der Browser-Agent ist in der Lage, Webseiten zu analysieren und Aktionen durchzuführen, einschließlich Klicks und Tastatureingaben, ähnlich wie ein menschlicher Nutzer. Dies macht ihn zu einem besonders anfälligen Ziel für Prompt-Angriffe.
Es ist jedoch wichtig zu beachten, dass auch KI-Modelle, die lediglich Text auf Webseiten erfassen, durch diese Technik angegriffen werden können. Ein früherer Vorfall bei OpenAIs Deep Research in ChatGPT hat dies bereits verdeutlicht. Das BSI hat ebenfalls vor diesen Prompt-Angriffen gewarnt.
Bildquelle: ai-generated