KI News

Claude Opus 4.8: Neues Update mit verbesserter Fehlertransparenz und Benchmark-Führung

2 min Lesezeit
Claude Opus 4.8: Neues Update mit verbesserter Fehlertransparenz und Benchmark-Führung

Anthropic präsentiert Upgrade von Claude Opus 4.8

Anthropic hat mit Claude Opus 4.8 eine aktualisierte Version seines führenden Modells vorgestellt, das in zahlreichen Benchmarks die Spitzenposition einnimmt und eine verbesserte Fähigkeit zur Fehlererkennung aufweist.

Nach Angaben von Anthropic übertrifft Opus 4.8 sowohl die vorherige Version als auch die Modelle GPT-5.5 von OpenAI und Gemini 3.1 Pro von Google in den meisten getesteten Bereichen. Im Bereich des agentischen Codings (SWE-Bench Pro) erreicht das neue Modell eine Erfolgsquote von 69,2 Prozent, während Opus 4.7 bei 64,3 Prozent und GPT-5.5 bei 58,6 Prozent liegt. Im multidisziplinären Reasoning (Humanity’s Last Exam) erzielt Opus 4.8 ohne den Einsatz von Tools 49,8 Prozent und mit Tools 57,9 Prozent, was jeweils die besten Werte in diesem Vergleich darstellt.

Verbesserte Ehrlichkeit und Transparenz

Ein herausragendes Merkmal von Opus 4.8 ist laut Anthropic die erhöhte Ehrlichkeit des Modells. Ein häufiges Problem bei KI-Systemen sei, dass sie oft voreilige Schlussfolgerungen ziehen und Fortschritte angeben, die bei genauerer Betrachtung nicht haltbar sind. Zudem hat Anthropic Claude jetzt die Fähigkeit, interaktive Diagramme und Grafiken direkt im Chat zu erstellen, was die Benutzererfahrung erheblich verbessert.

Des Weiteren plant OpenAI mit einem neuen Trainingsdatensatz, die Prompt-Injection-Abwehr deutlich zu verbessern, was für die gesamte Branche von Bedeutung ist.

„`


Quellen: the-decoder

Bildquelle: KI generiert

KI Snack