Der renommierte KI-Forscher Andrej Karpathy, bekannt für seine Arbeit bei Tesla und OpenAI, äußert tiefgreifende Bedenken hinsichtlich der Skalierbarkeit und Effektivität aktueller Trainingsmethoden für große Sprachmodelle (LLMs). Er fordert grundlegend neue Ansätze, um die nächste Stufe der künstlichen Intelligenz zu erreichen, und kritisiert insbesondere die Abhängigkeit von Reinforcement Learning.
Zweifel an Reinforcement Learning
Karpathy bezeichnet Reinforcement Learning (RL), eine Methode, die aktuell stark für das Training von LLMs zur Verbesserung ihrer "Reasoning"-Fähigkeiten eingesetzt wird, als "super sus" – also unzuverlässig und anfällig für Manipulation. Obwohl er RL-Finetuning als Verbesserung gegenüber traditionellem Supervised Finetuning (SFT) anerkennt, da es differenzierteres Verhalten ermöglicht, sieht er darin keine langfristige Lösung für intelligente Problemlösung.
- Kritik an RL: Belohnungsfunktionen sind zu leicht zu manipulieren und eignen sich nicht für das Erlernen komplexer Problemlösungen.
- Aktuelle Praxis: Unternehmen wie OpenAI setzen stark auf RL, in der Annahme, dass es skalierbar ist und sich gut auf neue Aufgaben übertragen lässt.
- Vorteile von RL: Ermöglicht LLMs, logische Zwischenschritte zu zeigen und durch positives Feedback für nachvollziehbare Einzelschritte zu lernen.
Suche nach neuen Lernparadigmen
Karpathy betont, dass für substanziellen Fortschritt grundlegend andere Lernmechanismen benötigt werden, die mit den effizienteren Lernparadigmen des Menschen mithalten können. Diese seien bisher "nicht richtig erfunden und skaliert worden". Er deutet "System Prompt Learning" als mögliches zukünftiges Paradigma an, bei dem Lernprozesse auf Token- und Kontextebene stattfinden, ähnlich der Konsolidierung von Informationen im menschlichen Schlaf.
Environments als nächstes großes Paradigma
Als vielversprechendstes nächstes Trainingsparadigma für LLMs nennt Karpathy "Environments" – interaktive Übungsumgebungen. Hier könnten LLMs durch Handlungen und das Erleben von Konsequenzen echtes Feedback erhalten, anstatt nur menschliche Antworten zu imitieren. Dies würde es den Modellen ermöglichen, Entscheidungen zu treffen und deren Wirksamkeit zu überprüfen. Die Herausforderung liege in der Erstellung einer großen und qualitativ hochwertigen Sammlung solcher Umgebungen.
Parallelen zu anderen Forschern
Karpathys Ansichten spiegeln die Forderungen von Deepmind-Forschern wie Richard Sutton und David Silver wider, die ebenfalls einen Wandel hin zu erfahrungsorientiertem Lernen in der KI fordern. Beide betonen, dass zukünftige KI-Systeme nicht mehr nur auf Nachahmung basieren können, sondern durch eigenständiges Handeln und direkte Erfahrung lernen müssen, um robuster und anpassungsfähiger zu werden.