Der neueste Benchmark ARC-AGI-3 stellt KI-Systeme in interaktiven Spielumgebungen auf die Probe, die Menschen problemlos bewältigen können. Kein führendes Modell erreicht die 1-Prozent-Marke, was darauf hindeutet, dass der Benchmark den KI-Systemen ihre größten Vorteile entzieht.
Die ARC Prize Foundation hat mit ARC-AGI-3 einen neuen Maßstab veröffentlicht, der KI-Agenten in rundenbasierten Spielumgebungen testet. Im Gegensatz zu früheren Versionen, die sich auf statische Eingabe-Ausgabe-Paare konzentrierten, müssen die KI-Agenten nun selbstständig die Umgebung erkunden, Hypothesen aufstellen, Ziele definieren und Handlungspläne entwickeln. Dabei erhalten sie keine Anweisungen oder Hinweise auf das Spielziel. Eine erste Version wurde im Sommer 2025 präsentiert.
Nach Angaben des begleitenden technischen Berichts konnten alle 135 Umgebungen von Menschen ohne Vorwissen und Anleitung erfolgreich gelöst werden. Im Gegensatz dazu erreichen alle getesteten führenden Modelle weniger als 1 Prozent: Gemini 3.1 Pro Preview erzielt 0,37 Prozent, GPT 5.4 kommt auf 0,26 Prozent, Opus 4.6 erreicht 0,25 Prozent und Grok-4.20 erzielt 0,00 Prozent. Es ist wichtig zu beachten, dass Maschinen und Menschen nicht gleich bewertet werden.
Zusätzlich zeigen neue Entwicklungen, dass virtuelle Agenten Akrobatik lernen, wenn Forscher immer mehr Netzwerkschichten stapeln.
„`
Bildquelle: ai-generated-gemini