Zerbrochene Zahnräder in einem KI-Gehirn

KI-Denkfähigkeiten unter Beschuss: Neue Studie zweifelt an „Chain-of-Thought“-Logik

Eine neue Studie der Arizona State University wirft grundlegende Fragen zur "Denkfähigkeit" von KI-Modellen auf. Die Forschungsergebnisse deuten darauf hin, dass die oft gelobten "Chain-of-Thought" (CoT) Fähigkeiten von großen Sprachmodellen (LLMs) möglicherweise eher auf erlernten Mustern basieren als auf echtem logischem Schlussfolgern. Diese Erkenntnisse stellen die Annahme infrage, dass mehr Rechenleistung automatisch zu menschenähnlicherem Denken führt.

Zweifel an der "Denkfähigkeit" von KI-Modellen

Die "Chain-of-Thought" (CoT) Methode soll großen Sprachmodellen (LLMs) helfen, komplexe Probleme durch logische Zwischenschritte zu lösen. Dies verbessert ihre Leistung bei Aufgaben, die Schlussfolgerungen, Mathematik oder gesunden Menschenverstand erfordern. Der Erfolg dieser Methode hat bei einigen Forschern die Annahme geweckt, dass es sich hierbei um ein Zeichen für emergentes, menschenähnliches Denken handelt, das mit zunehmender Rechenleistung skaliert und generalisiert werden kann.

Die "Fata Morgana" des CoT-Reasonings

Die neue Studie der Arizona State University stellt dieses Bild jedoch infrage. Die Forscher bezeichnen CoT-Reasoning als eine "fragile Fata Morgana", die nur in Datenverteilungen funktioniert, die den Trainingsdaten sehr ähnlich sind. Bei moderaten Abweichungen brechen diese Fähigkeiten schnell zusammen. Die Effektivität der Denkschritte wird demnach stark durch die Diskrepanz zwischen Trainings- und Testverteilung begrenzt.

Experimente mit DataAlchemy

Um ihre Hypothese zu überprüfen, entwickelten die Forscher eine kontrollierte Umgebung namens DataAlchemy. Dort trainierten sie ein Sprachmodell von Grund auf und untersuchten die Robustheit von CoT systematisch anhand von drei Dimensionen: Aufgabe, Länge und Format. Die getesteten Aufgaben umfassten einfache, zyklische mathematische Transformationen wie die ROT-Transformation (Buchstabenverschiebung im Alphabet) und die Wortrotation.

Ergebnisse und Implikationen

Die Ergebnisse zeigten, dass das Modell bereits bei neuen Aufgabenstrukturen oder unbekannten Transformationen scheiterte und stattdessen bekannte Muster reproduzierte. Auch bei veränderten Längen der Denkschritte oder Eingaben brach die Leistung ein. Selbst oberflächliche Änderungen im Format der Anfrage, wie das Einfügen von Störzeichen, beeinträchtigten das CoT-Reasoning negativ. Die Forscher warnen davor, CoT-Ausgaben mit verlässlichem Denken zu verwechseln, da die Modelle "flüssigen Unsinn" produzieren können, der logisch fehlerhaft ist.

Schlussfolgerung: Simulatoren statt Denker

Die Forscher sehen Reasoning-Modelle eher als "hochentwickelte Simulatoren von denkähnlichem Text" denn als prinzipientreue Denker. Ein systematisches Verständnis dafür, wann diese Logikketten versagen, fehle noch. Die Studie reiht sich ein in eine wachsende Zahl von Arbeiten, die die Grenzen aktueller KI-Modelle im Bereich des logischen Schlussfolgerns beleuchten.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like