KI News

OpenAI will mit neuem Trainingsdatensatz Prompt-Injection-Abwehr deutlich verbessern

1 min Lesezeit
OpenAI will mit neuem Trainingsdatensatz Prompt-Injection-Abwehr deutlich verbessern

OpenAI hat die IH-Challenge ins Leben gerufen, einen speziellen Trainingsdatensatz, der darauf abzielt, KI-Modellen beizubringen, vertrauenswürdige Anweisungen verlässlich über nicht vertrauenswürdige zu priorisieren. Erste Ergebnisse deuten auf signifikante Fortschritte in den Bereichen Sicherheit und Abwehr gegen Prompt-Injection-Angriffe hin.

KI-Systeme empfangen Anweisungen aus unterschiedlichen Quellen gleichzeitig. Dabei können Sicherheitsrichtlinien auf Systemebene, Vorgaben von Entwicklern, Anfragen von Nutzern sowie Informationen aus externen Tools in Konflikt zueinander stehen. Wenn das Modell dann eine falsche Entscheidung trifft, können Sicherheitsrichtlinien umgangen oder Prompt-Injection-Angriffe erfolgreich durchgeführt werden.

Nach Angaben von OpenAI haben viele dieser Herausforderungen eine gemeinsame Ursache: Das Modell folgt einfach der falschen Anweisung. Um dem entgegenzuwirken, hat das Unternehmen den Trainingsdatensatz „IH-Challenge“ entwickelt, der durch Reinforcement Learning den Modellen eine klare Priorisierung beibringen soll: Systemanweisungen haben Vorrang vor Entwickleranweisungen, gefolgt von Nutzeranfragen und externen Tools.

Bildquelle: ai-generated-gemini

KI Snack

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert