Die ARC Prize Foundation hat eine umfassende Untersuchung von 160 Spielverläufen der KI-Modelle GPT-5.5 von OpenAI und Opus 4.7 von Anthropic im Benchmark ARC-AGI-3 durchgeführt. Die Resultate decken drei grundlegende Fehlermuster auf, die erklären, weshalb beide Modelle unter 1 Prozent bleiben.
Üblicherweise zeigen KI-Benchmarks lediglich an, ob ein Modell die Tests bestanden hat oder nicht. Die ARC Prize Foundation geht jedoch mit ihrer neuen Analyse einen Schritt weiter: Sie hat 160 Replays und Reasoning-Traces der beiden KI-Systeme in den interaktiven Umgebungen des ARC-AGI-3-Benchmarks ausgewertet.
Benchmark-Details und Ergebnisse
Der erst im März 2026 veröffentlichte Benchmark bewertet KI-Systeme in interaktiven, rundenbasierten Spielumgebungen. Im Gegensatz zu früheren Tests, die statische Muster analysierten, müssen die KI-Agenten hier selbstständig Umgebungen erkunden, Hypothesen formulieren und Handlungspläne umsetzen, ohne spezifische Anweisungen zu erhalten.
Alle bisher getesteten Frontier-Modelle erzielten Ergebnisse unter 1 Prozent, während Menschen die Aufgaben ohne Vorwissen erfolgreich bewältigen konnten. Die neuesten Resultate sind ebenfalls enttäuschend: GPT-5.5 erreicht bei Kosten von etwa 10.000 US-Dollar lediglich 0,43 Prozent, während Opus 4.7 auf 0,18 Prozent kommt.
Bildquelle: ai-generated-gemini