KI News

Alibabas Qwen3.5-Omni: Fortschrittliches KI-Modell mit umfassenden Fähigkeiten

2 min Lesezeit
Alibabas Qwen3.5-Omni: Fortschrittliches KI-Modell mit umfassenden Fähigkeiten

Alibaba hat das KI-Modell Qwen3.5-Omni vorgestellt, das über die Fähigkeit verfügt, Texte, Bilder, Audio und Videos zu verstehen. Dieses neue Modell soll in der Lage sein, Gemini 3.1 Pro in Bezug auf Audioaufgaben zu übertreffen und bietet zudem die innovative Funktion, Programmieranweisungen durch gesprochene Sprache und Videoinput zu verarbeiten. Alibaba gründet eine neue KI-Sparte.

Die neueste Version aus der Qwen-Reihe wird in drei Varianten angeboten: Plus, Flash und Light. Sie kann Kontexte von bis zu 256.000 Tokens verarbeiten und erfasst laut den Angaben des Qwen-Teams mehr als zehn Stunden Audio sowie über 400 Sekunden 720P-Video bei einer Bildrate von einem Frame pro Sekunde. Das Modell wurde auf über 100 Millionen Stunden audiovisuellen Materials vortrainiert und ist somit nativ omnimodal. Neben Text kann es auch Sprache verarbeiten.

215 Benchmarks: Überlegenheit der Plus-Variante

Die Plus-Variante von Qwen3.5-Omni setzt laut dem Qwen-Team in 215 Audio- und audiovisuellen Teilaufgaben neue Maßstäbe. Dazu gehören drei audiovisuelle Benchmarks, fünf Audio-Benchmarks, acht Benchmarks zur Spracherkennung sowie 156 sprachspezifische Übersetzungs- und 43 sprachspezifische Erkennungsaufgaben. Qwen3.5-Omni-Plus soll Googles Gemini 3.1 Pro übertreffen in den Bereichen allgemeines Audio-Verständnis, Schlussfolgerungen, Erkennung, Übersetzung und Dialog. Im Bereich des audiovisuellen Gesamtverständnisses wird das Modell auf dem Niveau von Gemini 3.1 Pro eingeordnet. Ein Wettbewerb zur Entwicklung neuer Sprachmodelle könnte ebenfalls interessante Fortschritte in diesem Bereich fördern.

„`

Bildquelle: ai-generated-gemini

KI Snack