Ein überraschender Durchbruch aus dem Samsung SAIL Montreal Labor wirbelt die KI-Forschung auf: Mit nur sieben Millionen Parametern schlägt ein winziges Modell namens TRM („Tiny Recursive Model“) etablierte KI-Schwergewichte wie o3-mini und Gemini 2.5 Pro im anspruchsvollen ARC-AGI-Benchmark – und das mit minimalem Rechenaufwand.
Wichtigste Erkenntnisse
- TRM löst komplexe Denkaufgaben effizienter als viel größere Sprachmodelle mit Milliarden von Parametern.
- Besonders auffällig ist die Leistung bei strukturierten Aufgaben wie Sudoku und dem ARC-AGI-Reasoning-Test.
- Die Innovation liegt im rekursiven Ansatz und einem „Notizzettel“-Mechanismus zur schrittweisen Fehlerkorrektur.
- Das Modell ist speziell für strukturierte Aufgaben optimiert, eignet sich jedoch weniger für offene Aufgabenfelder.
Was macht das Tiny Recursive Model besonders?
Das Herzstück von TRM ist eine Kombination aus „Kurzzeitgedächtnis“ und einem iterativen Lösungsprozess. Während große KI-Modelle sämtliche Aufgaben in einem riesigen neuronalen Netz verarbeiten, setzt TRM auf Effizienz: Es merkt sich die aktuelle Lösung und speichert Zwischenschritte als Notizen. In jedem Durchlauf werden Lösung und Notizen aktualisiert und systematisch verbessert.
Anders als klassische Large Language Models verlangt TRM deutlich weniger Rechenleistung und Speicherplatz – mit lediglich 7 Millionen Parametern ist es tausendfach schlanker als gängige Modelle.
So schneidet TRM im Benchmark ab
Im renommierten ARC-AGI-Benchmark, der besonders hohe Anforderungen an logisches Denken und Problemlösefähigkeit stellt, erzielt TRM eine Trefferquote von 45 Prozent (ARC-AGI-1) und 8 Prozent (ARC-AGI-2). Zum Vergleich: o3-mini-high und Gemini 2.5 Pro erreichen lediglich 3,0 bzw. 4,9 Prozent auf ARC-AGI-2. Auch bei anderen Aufgaben wie „Sudoku-Extreme" und "Maze-Hard" übertrifft TRM frühere Modelle deutlich.
| Modell | Parameter (Millionen) | ARC-AGI-2 Score (%) |
|---|---|---|
| TRM | 7 | 8 |
| o3-mini-high | ~3000 | 3.0 |
| Gemini 2.5 Pro | ? | 4.9 |
Größere Spezialisten bleiben bei sämtlichen Aufgaben vorn, zeigen aber: Für eng umrissene Aufgabenformate kann ein kleiner Ansatz genügen.
Hintergründe: Architektur und Training
TRM nutzt bei kleinen, festen Gittern wie Sudoku einfache MLP-Netze, bei größeren Gittern wie im ARC-AGI-Test setzt es auf Self-Attention-Techniken. Im Training bekommt das Modell nach jedem Schritt sofort Rückmeldung und lernt, abzuschätzen, wann ein Durchlauf beendet werden sollte. Datenaugmentation spielt beim Training eine große Rolle, um die Robustheit zu steigern.
Was bedeutet das für die KI-Forschung?
TRM beweist eindrucksvoll, wie spezialisierte Modelle mit minimalem Ressourcenbedarf große, universelle Systeme bei Nischenaufgaben schlagen können. Dennoch bleibt der Anwendungsbereich eng umrissen: Für offene, multimodale oder textlastige Aufgaben ist TRM bislang nicht geeignet. Die Ergebnisse liefern Impulse für weitere Experimente und belegen, dass clevere Architektur-Entscheidungen große Wirkung entfalten.
Unabhängige Nachtests und Erweiterungen für andere Aufgaben sind bereits angekündigt – die Forschungsgemeinde blickt gespannt auf die nächsten Schritte dieses kleinen, aber feinen KI-Modells.