Ein neuer Benchmark namens OdysseyBench hat die Leistung von KI-Agenten in komplexen, mehrtägigen Büroaufgaben untersucht. Überraschenderweise übertrifft OpenAIs älteres Modell o3 in vielen dieser Szenarien das neuere GPT-5-Modell. Dies deutet auf Herausforderungen bei der langfristigen Planung und Koordination durch aktuelle KI-Systeme hin.
Ein neuer Maßstab für KI-Agenten
Forscher der University of Edinburgh und Microsoft haben OdysseyBench entwickelt, um KI-Agenten in realistischen Büroumgebungen zu testen. Der Benchmark umfasst 602 Aufgaben aus Bereichen wie Word, Excel, PDF, E-Mail und Kalender. Er unterscheidet zwischen einfachen, atomaren Aufgaben und komplexen Langstreckenaufgaben, die Dialoge, Kontextaggregation und mehrstufige Dateimanipulation erfordern.
Überraschende Ergebnisse im Vergleich
In den Tests, die die Fähigkeit von KI-Agenten zur dialogbasierten Lösung langfristiger Aufgaben bewerten, zeigte sich, dass OpenAIs o3-Modell in beiden Teilen des Benchmarks (OdysseyBench+ und OdysseyBench-Neo) GPT-5 und GPT-5-chat übertraf.
- OdysseyBench-Neo (synthetisierte Aufgaben): o3 erreichte eine Erfolgsquote von 61,26 %, während GPT-5 bei 55,96 % und GPT-5-chat bei 57,62 % lag.
- Aufgaben mit drei Anwendungen: o3 erzielte 59,06 %, GPT-5 nur 53,80 %.
- OdysseyBench+ (realitätsnahe Aufgaben): o3 erreichte 56,2 %, GPT-5 54,0 % und GPT-5-chat 40,3 %.
Schwächen bei Planung und Tool-Nutzung
Die Analyse typischer Fehler deckte Schwächen in der Planung und der Nutzung von Tools auf. KI-Agenten übersehen häufig relevante Dateien, führen geforderte Aktionen nicht aus oder greifen auf falsche Anwendungen zu. Insbesondere Aufgaben, die das Erstellen oder Bearbeiten von DOCX- und XLSX-Dateien beinhalten, erwiesen sich als fehleranfällig, da sie präzise, mehrstufige Koordination erfordern.
Implikationen für die KI-Entwicklung
Die Ergebnisse sind besonders relevant im Hinblick auf OpenAIs strategischen Fokus auf KI-Systeme, die über längere Zeiträume hinweg planen und agieren können. Der Benchmark legt nahe, dass der Fortschritt in diesen Bereichen begrenzt ist, da zwischen o3 und GPT-5 kein signifikanter Sprung erkennbar war. Die Forscher stellen den Benchmark und das Erzeugungsframework HOMERAGENTS auf GitHub zur Verfügung.