Eine Untersuchung im Rahmen des Anthropic Fellows Program hat ergeben, dass Sprachmodelle effektiver an ihre Werte gebunden sind, wenn sie zunächst die zugrunde liegenden Prinzipien verstehen, bevor sie spezifisches Verhalten erlernen. Dies führt dazu, dass sie sich auch in unbekannten Situationen besser an diese Werte halten.
Forschungsinstitute wie OpenAI und Anthropic erstellen umfassende „Model Specs“ oder Verfassungen, die das gewünschte Verhalten eines Modells definieren. In der Regel erfolgt die Feinjustierung des Modells durch Beispiele für erwünschtes Verhalten. Laut den Wissenschaftlern bleibt diese Ausrichtung jedoch oft oberflächlich, da die Demonstrationen lediglich zeigen, was zu tun ist, jedoch nicht, warum es so sein sollte. Dadurch lernt das Modell Muster, ohne die zugrunde liegenden Prinzipien zu begreifen, was zu Misserfolgen in neuen Situationen führen kann – so die Theorie der Forscher.
Die neue Methode: Zuerst lesen, dann üben
Das Team um Chloe Li hat eine neue Phase namens „Model Spec Midtraining“ (MSM) eingeführt, die zwischen dem allgemeinen Pre-Training und dem Alignment-Fine-Tuning angesiedelt ist. In dieser Phase wird das Modell mit synthetisch erzeugten Dokumenten trainiert, die den Model Spec aus unterschiedlichen Perspektiven beleuchten: interne Memos, Forschungsberichte, Blog-Posts oder Fallstudien. So erwirbt das Modell das Wissen über den Spec, bevor es mit konkreten Verhaltensbeispielen konfrontiert wird.
Ein Beispiel verdeutlicht dieses Prinzip: Zwei identische Modelle werden auf exakt dieselben Käse-Präferenzen abgestimmt (zum Beispiel „ich mag Frischkäse, keinen Brie de Meaux“). Vor dem Fine-Tuning erhält jedoch das eine Modell MSM-Dokumente, die diese Vorlieben mit pro-amerikanischen Werten untermauern, während das andere Modell mit Werten der Erschwinglichkeit arbeitet. Neues Framework zeigt die Bedeutung menschlicher Unterstützung beim Roboter-Coding auf.
Zusätzlich wird OpenAI einen Wettbewerb zur Entwicklung eines kompakten Sprachmodells starten, um die Forschung weiter voranzutreiben. OpenAI startet Wettbewerb zur Entwicklung eines kompakten Sprachmodells.
„`
Quellen: the-decoder
Bildquelle: KI generiert