OpenAI präsentiert mit FrontierScience einen neuen Benchmark, der KI-Modelle auf Olympiade- und Forschungsniveau evaluiert. Das firmeneigene Modell GPT-5.2 erzielt hierbei die besten Ergebnisse, dennoch offenbaren die Aufgaben auch die Limitationen der gegenwärtigen Systeme.
Laut OpenAI sind bestehende Wissenschafts-Benchmarks nahezu erschöpft. Als das Unternehmen im November 2023 GPQA vorstellte, einen „Google-sicheren“ Multiple-Choice-Test für wissenschaftliche Fragen auf PhD-Niveau, erreichte GPT-4 lediglich 39 Prozent. Zwei Jahre später hat GPT-5.2 seinen Wert auf 92 Prozent gesteigert. Diese rapide Entwicklung erfordert, so das Unternehmen, neue, herausforderndere Evaluierungsmethoden.
Mit FrontierScience führt OpenAI nun einen Benchmark ein, der aus zwei Teilen besteht: einem Olympiad-Set mit Aufgaben, die dem Niveau internationaler Wissenschaftsolympiaden entsprechen, sowie einem Research-Set, das offene Forschungsteilprobleme auf PhD-Niveau umfasst. Das veröffentlichte Gold-Set enthält 160 Fragen zu Physik, Chemie und Biologie, die aus über 700 ursprünglich formulierten Aufgaben gefiltert wurden. Die verbleibenden Fragen werden zurückgehalten, um mögliche Kontaminationen zu überwachen.
Bildquelle: ai-generated