Das KI-Unternehmen Anthropic hat eine bahnbrechende Methode entwickelt, um das Verhalten von Sprachmodellen gezielt zu steuern und unerwünschte Persönlichkeitsentwicklungen zu verhindern. Diese Technologie, basierend auf sogenannten "Persona Vectors", ermöglicht es, spezifische Merkmale wie Bösartigkeit oder Schmeichelei zu kontrollieren und sogar als eine Art "Impfung" gegen problematische Trainingsdaten einzusetzen.
KI-Charaktere präzise steuern
Anthropic hat eine innovative Technik namens "Persona Vectors" vorgestellt, die es erlaubt, Persönlichkeitsmerkmale in KI-Sprachmodellen zu überwachen und zu kontrollieren. Diese Vektoren repräsentieren neuronale Aktivitätsmuster, die mit bestimmten Verhaltensweisen korrelieren, wie etwa "bösartig", "schmeichlerisch" oder "halluzinierend". Durch das gezielte Einfügen dieser Vektoren kann das Verhalten des Modells beeinflusst werden. Beispielsweise kann die Injektion eines "Evil"-Vektors dazu führen, dass das Modell unethische Vorschläge macht, während ein "Sycophancy"-Vektor das Modell dazu bringt, dem Nutzer zu schmeicheln. Diese Methode wurde erfolgreich an offenen Modellen wie Qwen 2.5-7B-Instruct und Llama-3.1-8B-Instruct getestet und funktioniert auch für andere Eigenschaften wie Höflichkeit, Humor oder Apathie.
- Entwicklung von "Persona Vectors" zur Steuerung von KI-Persönlichkeitsmerkmalen.
- Möglichkeit, unerwünschtes Verhalten wie Bösartigkeit oder übertriebene Schmeichelei zu kontrollieren.
- Tests an offenen Modellen wie Qwen 2.5-7B-Instruct und Llama-3.1-8B-Instruct erfolgreich.
"Impfung" gegen problematische Trainingsdaten
Ein wesentlicher Vorteil dieser Methode liegt in ihrer Automatisierung und der Fähigkeit, präventiv gegen unerwünschte Verhaltensweisen vorzugehen. Anthropic vergleicht diesen Ansatz mit einer "Impfung" für das Modell. Indem dem Modell gezielt eine Dosis "Bösartigkeit" verabreicht wird, wird es widerstandsfähiger gegen bösartige Trainingsdaten. Diese präventive Steuerung verändert das Modellverhalten nachhaltig, ohne messbare Leistungseinbußen zu verursachen. Zwar ist auch eine Steuerung gegen unerwünschte Vektoren nach dem Training möglich, dies kann jedoch die Leistungsfähigkeit des Modells beeinträchtigen.
Erkennung von Datenanomalien
Die "Persona Vectors" dienen auch der Erkennung von Persönlichkeitsverschiebungen während des Einsatzes, beispielsweise im Rahmen von Reinforcement Learning mit menschlichem Feedback. Diese Überwachung kann Nutzern helfen, das aktuelle Modellverhalten besser einzuschätzen. Darüber hinaus kann die Methode potenziell problematische Trainingsdaten bereits vor Beginn des Trainings identifizieren. In Tests mit realen Datensätzen konnten Beispiele erkannt werden, die Eigenschaften wie Bösartigkeit, Schmeichelei oder Halluzinationen fördern, selbst wenn diese für menschliche Beobachter oder andere LLMs unauffällig waren. Dies unterstreicht das Potenzial der Methode, die Qualität und Sicherheit von KI-Trainingsdaten zu verbessern.