Analoge Uhr mit römischen Ziffern und Sekundenzeiger.

KI-Systeme scheitern an analogen Uhren: Römische Ziffern und Sekundenzeiger als Stolpersteine

Selbst die fortschrittlichsten KI-Systeme haben Schwierigkeiten, analoge Uhren korrekt zu lesen. Während Menschen diese Aufgabe mit hoher Präzision meistern, erreichen die besten KI-Modelle nur eine Genauigkeit von etwa 13,3 Prozent. Dies wirft grundlegende Fragen zur visuellen Argumentationsfähigkeit aktueller Sprachmodelle auf und offenbart eine überraschende Lücke zwischen menschlicher und maschineller Wahrnehmung.

Die ClockBench-Herausforderung

Alek Safar hat ein neues Benchmark-System namens ClockBench entwickelt, das elf verschiedene Sprachmodelle von sechs führenden Unternehmen gegen fünf menschliche Teilnehmer antreten lässt. Der Datensatz umfasst 180 speziell erstellte analoge Uhren mit insgesamt 720 Fragen. Das Design folgt dem Prinzip "einfach für Menschen, schwer für KI", ähnlich wie bei früheren Benchmarks.

  • Datensatz-Erstellung: Um Verzerrungen durch Trainingsdaten zu vermeiden, wurde der gesamte Datensatz neu erstellt. Er beinhaltet 36 verschiedene Zifferblatt-Designs, die systematisch Merkmale wie römische oder arabische Ziffern, verschiedene Ausrichtungen, Stundenmarkierungen, gespiegelte Darstellungen und bunte Hintergründe kombinieren.
  • Testaufgaben: Jede Uhr wurde mit vier Aufgaben getestet: Zeitablesung, Zeitrechnungen, Zeigerverschiebungen um bestimmte Winkel und Zeitzonen-Umrechnungen.
  • Leistungslücke: Die Ergebnisse zeigen eine deutliche Kluft zwischen menschlicher und maschineller Leistung. Menschen lesen analoge Uhren mit 89,1 Prozent Genauigkeit, während das beste KI-Modell nur 13,3 Prozent erreicht.

Leistung der KI-Modelle

Googles Gemini 2.5 Pro führte das Feld mit 13,3 Prozent Genauigkeit an, gefolgt von Gemini 2.5 Flash (10,5 Prozent) und GPT-5 (8,4 Prozent). Überraschend schwach schnitt Grok 4 ab, das mit nur 0,7 Prozent Genauigkeit das Schlusslicht bildete.

  • Fehlergrößen: Während Menschen im Median nur 3-Minuten-Fehler machten, lagen selbst die besten KI-Modelle im Median eine Stunde daneben. Die schwächsten Modelle erreichten Fehlergrößen von etwa drei Stunden.
  • Problematische Merkmale: Römische Ziffern führten zu nur 3,2 Prozent Genauigkeit, kreisförmig angeordnete Zahlen zu 4,5 Prozent. Sekundenzeiger, bunte Hintergründe und gespiegelte Uhren bereiteten ebenfalls Schwierigkeiten.
  • Unerwartete Stärke: Wenn KI-Modelle eine Uhrzeit korrekt ablesen konnten, erreichten sie bei Zeitrechnungen oder Zeitzonen-Umrechnungen oft 100 Prozent Genauigkeit. Dies deutet darauf hin, dass die Fähigkeit zur Zeitmanipulation vorhanden ist, das initiale visuelle Ablesen jedoch scheitert.

Ausblick und Implikationen

Die Ergebnisse von ClockBench deuten darauf hin, dass das Ablesen analoger Uhren eine hohe Messlatte für visuelles Reasoning setzt. Möglicherweise sind ungewöhnliche Uhren nicht ausreichend in den Trainingsdaten repräsentiert, oder die Übersetzung visueller Uhren-Repräsentationen in Textbeschreibungen ist problematisch.

ClockBench soll als fortlaufender Benchmark dienen, um die KI-Entwicklung voranzutreiben. Trotz der ernüchternden Ergebnisse zeigen die besten Modelle konsistente Leistungen über dem Zufallsniveau, was auf grundsätzliche Fähigkeiten zum visuellen Reasoning hindeutet. Ob diese durch Skalierung oder neue Methoden verbessert werden können, bleibt eine offene Forschungsfrage.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like