OpenAI hat mit der Einführung von GPT-5.4 mini und nano zwei neue kompakte Modelle vorgestellt, die speziell für Anwendungen wie Coding-Assistenten, Subagenten und die Steuerung von Computern optimiert sind. Während die Leistung von GPT-5.4 mini nahezu die des Vollmodells erreicht, steigen die Preise im Vergleich zu den vorherigen Versionen erheblich.
Das Modell GPT-5.4 mini bietet laut OpenAI signifikante Verbesserungen in den Bereichen Coding, Reasoning, multimodales Verständnis und Tool-Nutzung und arbeitet dabei mehr als doppelt so schnell. In verschiedenen Benchmarks zeigt sich, dass die Leistung des Modells der des größeren GPT-5.4 sehr nahekommt, wie beispielsweise beim Coding-Benchmark SWE-Bench Pro (54,4 % gegenüber 57,7 %) und OSWorld-Verified (72,1 % gegenüber 75,0 %), der die Computernutzung bewertet. Zudem wird die Prompt-Injection-Abwehr von OpenAI deutlich verbessert.
Benchmark-Vergleich
- SWE-Bench Pro: GPT-5.4: 57,7 %, GPT-5.4 mini: 54,4 %, GPT-5.4 nano: 52,4 %, GPT-5 mini: 45,7 %
- Terminal-Bench 2.0: GPT-5.4: 75,1 %, GPT-5.4 mini: 60,0 %, GPT-5.4 nano: 46,3 %, GPT-5 mini: 38,2 %
- Toolathlon: GPT-5.4: 54,6 %, GPT-5.4 mini: 42,9 %, GPT-5.4 nano: 35,5 %, GPT-5 mini: 26,9 %
- GPQA Diamond: GPT-5.4: 93,0 %, GPT-5.4 mini: 88,0 %, GPT-5.4 nano: 82,8 %, GPT-5 mini: 81,6 %
- OSWorld-Verified: GPT-5.4: 75,0 %, GPT-5.4 mini: 72,1 %, GPT-5.4 nano: 39,0 %, GPT-5 mini: 42,0 %
Das Modell GPT-5.4 nano stellt die kleinste und kostengünstigste Option dar. OpenAI empfiehlt dieses Modell für Aufgaben wie Klassifikation, Datenextraktion, Ranking und Coding-Subagenten, die einfachere unterstützende Tätigkeiten ausführen. Auch dieses Modell stellt ein bedeutendes Upgrade im Vergleich zu GPT-5 nano dar. In der Forschung wird zudem beobachtet, dass virtuelle Agenten Akrobatik lernen, was die Möglichkeiten dieser Technologien weiter erweitert.
„`
Bildquelle: ai-generated-gemini