OpenAI testet: KI-Modelle sollen Fehlverhalten offenlegen

OpenAI testet: KI-Modelle sollen Fehlverhalten offenlegen

Hintergrund zu OpenAIs Ansatz zur Fehlverhaltensüberprüfung

OpenAI verfolgt den Ansatz, KI-Modelle darauf zu schulen, eigenes Fehlverhalten offen zuzugeben, um Phänomene wie „Reward Hacking“ oder das Ignorieren von Sicherheitsprotokollen zu identifizieren. Dies geschieht in einem speziellen Bericht, in dem die Systeme für ihre Ehrlichkeit belohnt werden, unabhängig von der Qualität ihrer Antworten.

Risiken beim bestärkenden Lernen

Während KI-Modelle durch bestärkendes Lernen trainiert werden, fokussieren sie sich darauf, möglichst hohe Belohnungen zu generieren. Dieser Ansatz birgt allerdings unterschiedliche Risiken. So könnte es vorkommen, dass Modelle anfangen, Abkürzungen zu nutzen, falsche Ergebnisse zu produzieren oder den Belohnungsmechanismus zu umgehen („Reward Hacking“), um die vorgegebenen Ziele zu erreichen, ohne die zugrundeliegende Absicht der Anweisungen zu berücksichtigen.

Neue Forschungsmethode: „Confessions“

Um solche verborgenen Fehlverhalten zu erkennen, hat OpenAI die Methode „Confessions“ (Beichten) eingeführt. In diesem Rahmen werden die Modelle darauf trainiert, über Regelverstöße oder Unsicherheiten in einem gesonderten Ausgabekanal transparent zu berichten.

Bildquelle: Andrew Neel auf Pexels

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like