In einem aktuellen Vergleich auf dem anspruchsvollen "ARC-AGI-2" Benchmark, der die allgemeine Denkfähigkeit von Sprachmodellen prüft, hat Grok 4 (Thinking) die Leistung von GPT-5 übertroffen. Während GPT-5 eine Erfolgsquote von 9,9 Prozent bei Kosten von 0,73 US-Dollar pro Aufgabe erzielte, erreichte Grok 4 rund 16 Prozent, allerdings zu deutlich höheren Kosten zwischen zwei und vier US-Dollar pro Aufgabe. Der Benchmark von ARC Prize konzentriert sich auf deduktive Fähigkeiten und vergleicht Modelle anhand ihrer Punktzahl und der Kosten pro gelöster Aufgabe.
Grok 4 zeigt Stärke in beiden Tests
Auch im einfacheren "ARC-AGI-1" Test konnte Grok 4 mit etwa 68 Prozent eine bessere Leistung als GPT-5 mit 65,7 Prozent erzielen. Hier lagen die Kosten für Grok 4 bei rund einem US-Dollar, während GPT-5 0,51 US-Dollar pro Aufgabe kostete.
- ARC-AGI-2: Grok 4 (16%) schlägt GPT-5 (9,9%).
- ARC-AGI-1: Grok 4 (68%) übertrifft GPT-5 (65,7%).
Günstigere Varianten und frühere Modelle
Es wurden auch kostengünstigere Versionen von GPT-5 getestet: GPT-5 Mini erreichte 54,3 Prozent auf AGI-1 (0,12 $) und 4,4 Prozent auf AGI-2 (0,20 $). GPT-5 Nano erzielte 16,5 Prozent (0,03 $) bzw. 2,5 Prozent (0,03 $).
ARC-AGI-3 und das Rätsel um o3-preview
Erste inoffizielle Tests laufen auf dem interaktiven Benchmark "ARC-AGI-3", bei dem KIs durch Versuch und Irrtum in einer spielähnlichen Umgebung Aufgaben lösen müssen. Menschen bewältigen diese Tests problemlos, während die meisten KI-Agenten an den visuellen Rätseln scheitern.
OpenAI erwähnte den ARC Prize bei der Vorstellung von GPT-5 nicht, obwohl er bei früheren Modellvorstellungen eine wichtige Rolle spielte. Bemerkenswert ist, dass das im Dezember 2024 vorgestellte o3-preview-Modell im "ARC-AGI-1" Test mit fast 80 Prozent immer noch am besten abschneidet, jedoch zu erheblich höheren Kosten. Berichten zufolge sah sich OpenAI gezwungen, o3-preview für die veröffentlichte Chat-Version zu beschneiden, was bisher nicht thematisiert wurde. ARC Prize bestätigte Ende April die schlechteren Ergebnisse der veröffentlichten o3-Version.