„Es ist uns gelungen, ein internes Trainingsdokument aus Claude 4.5 Opus zu extrahieren, welches die Persönlichkeit und ethischen Richtlinien der KI definiert.“ Diese Feststellung markiert einen signifikanten Moment in der KI-Entwicklung, da Anthropic die Authentizität des Materials bestätigt hat. Der dokumentierte Ansatz zur Charakterbildung eines Sprachmodells gilt bislang als herausragend.
Charakterbildung und Ethische Leitlinien von Claude 4.5 Opus enthüllt
Dem LessWrong-Autor Richard Weiss ist es gelungen, einen umfassenden Text aus dem Sprachmodell Claude 4.5 Opus zu rekonstruieren. Dieser enthält präzise Anweisungen bezüglich des Charakters, der ethischen Grundsätze und der Selbstwahrnehmung der Künstlichen Intelligenz. Amanda Askell, eine Ethikerin bei Anthropic, bestätigte auf der Plattform X die Echtheit des Dokuments und dessen Einsatz im Trainingsprozess des Modells.
Rekonstruktion eines internen Trainingsdokuments
Die Aufmerksamkeit von Herrn Weiss wurde geweckt, als das KI-Modell begann, Passagen einer vermeintlichen „soul_overview“ (Seelen-Übersicht) zu generieren. Durch den strategischen Einsatz mehrerer Claude-Instanzen, die den Text im Konsens reinterpretierten und fusionierten, konnte das vollständige Dokument rekonstruiert werden. Nach Aussage von Weiss ist der Text in den „Gewichten des Modells komprimiert“, was ihn von einem herkömmlichen System-Prompt unterscheidet, der üblicherweise zur Laufzeit eingespeist wird. Dies deutet auf eine tiefere Integration der Persönlichkeitsmerkmale hin, die das Verhalten und die Antworten der KI auf fundamentale Weise beeinflussen.
Bildquelle: Shutterstock