Qwen3-VL analysiert zweistündige Videos und findet fast jedes Detail

Qwen3-VL analysiert zweistündige Videos und findet fast jedes Detail

Qwen3-VL analysiert zweistündige Videos und identifiziert nahezu jedes Detail

Wenige Monate nach der Veröffentlichung präsentiert Alibaba nun den umfassenden technischen Bericht zu Qwen3-VL. Das offene, multimodale KI-Modell demonstriert in Tests überlegene Leistungen bei mathematischen Aufgaben mit visuellen Inhalten und ist in der Lage, stundenlange Videos zu analysieren.

Das System verarbeitet gleichzeitig große Datenmengen, darunter zweistündige Videos oder hunderte von Dokumentenseiten mit einer maximalen Kontextlänge von 256.000 Token.

Im sogenannten Needle-in-a-Haystack-Test kann das Flaggschiffmodell mit 235 Milliarden Parametern in 30-minütigen Videos einzelne relevante Frames mit einer Genauigkeit von 100 Prozent identifizieren. Selbst bei zweistündigen Videos mit etwa einer Million Token bleibt die Genauigkeit bei 99,5 Prozent. In diesem Test wird ein semantisch wichtiger „Needle“-Frame an verschiedenen Positionen in langen Videos eingefügt, den das System lokalisieren und analysieren muss.

In zahlreichen veröffentlichten Tests zeigt Qwen3-VL-235B-A22B die beste Leistung im Vergleich zu Gemini 2.5 Pro, OpenAI GPT-5 und Claude Opus 4.1, auch bei aktiviertem Reasoning oder hohen Thinking-Budgets. Bei mathematischen Aufgaben mit visuellen Elementen übertrifft Qwen3-VL die etablierten Wettbewerber deutlich. Auf MathVista erreicht es 85,8 Prozent, während GPT-5 81,3 Prozent erzielt. Bei MathVision führt es mit 74,6 Prozent vor Gemini-2.5-Pro mit 73,3 Prozent und GPT-5 mit 65,8 Prozent.

Das Modell demonstriert seine Vielseitigkeit in verschiedenen spezialisierten Benchmarks. Bei DocVQA, einem Test für Dokumentenverständnis, erzielt es eine Genauigkeit von 96,5 Prozent. Auf OCRBench erreicht es 875 Punkte und unterstützt OCR-Aufgaben in 39 Sprachen, was eine fast vierfache Steigerung im Vergleich zu Qwen2.5-VL darstellt, das nur zehn Sprachen unterstützte.

Eine neue Fähigkeit zeigt das System bei GUI-Agent-Aufgaben. Auf ScreenSpot Pro, einem Test zur Navigation in grafischen Benutzeroberflächen, erreicht es eine Genauigkeit von 61,8 Prozent. Bei AndroidWorld, wo das System selbstständig Android-Apps bedienen muss, erzielt Qwen3-VL-32B 63,7 Prozent.

Das Modell kann auch komplexe, mehrseitige PDF-Dokumente verstehen. Auf MMLongBench-Doc, einem Test zur Analyse langer Dokumente, erreicht es eine Genauigkeit von 56,2 Prozent. Bei der CharXiv-Benchmark für wissenschaftliche Charts erzielt es 90,5 Prozent bei Beschreibungsaufgaben und 66,2 Prozent bei komplexeren Reasoning-Fragen.

Im direkten Vergleich mit Gemini-2.5-Pro, GPT-5 und Claude-Opus-4.1 zeigt sich jedoch ein differenziertes Bild. Bei MMMU-Pro, einem anspruchsvollen Multi-Disziplin-Test, liegt Qwen3-VL mit 69,3 Prozent hinter den 78,4 Prozent von GPT-5 zurück. Auch bei den meisten Benchmarks zur Fragebeantwortung in Videos haben die kommerziellen Konkurrenten die Oberhand. Die Ergebnisse deuten darauf hin, dass Qwen3-VL besonders bei visuell-mathematischen Aufgaben und Dokumentenverständnis stark ist, jedoch im Bereich des allgemeinen Reasonings noch Verbesserungspotenzial hat.

Drei technische Durchbrüche für multimodale Verarbeitung

Der technische Bericht beschreibt drei zentrale architektonische Verbesserungen. Erstens ersetzt das verbesserte Interleaved-MRoPE das ursprüngliche MRoPE aus Qwen2-VL. MRoPE (Multimodal Rotary Position Embedding) ist ein Verfahren, das es KI-Modellen ermöglicht, die Position von Elementen in Bildern und Videos zu verstehen.

Das ursprüngliche MRoPE teilte die mathematischen Repräsentationen in separate Gruppen auf: eine für die zeitliche Dimension, eine für horizontale und eine für vertikale Positionen. Das neue Interleaved-MRoPE verteilt diese drei Dimensionen gleichmäßig über alle verfügbaren mathematischen Bereiche, anstatt separate Blöcke zu bilden. Dies soll insbesondere bei langen Videos die Leistung verbessern.

Zweitens nutzt die DeepStack-Technologie nicht nur das finale Ergebnis der Bilderkennung, sondern greift auch auf Zwischenergebnisse aus verschiedenen Ebenen des SigLIP-2 Vision Encoders zu, die unterschiedlich detaillierte visuelle Informationen enthalten.

Drittens ersetzt eine textbasierte Zeitstempel-Ausrichtung die komplexe T-RoPE-Methode aus Qwen2.5-VL. Anstatt jedem Videoframe eine mathematische Zeitposition zuzuweisen, fügt das System einfache Textmarker wie „<3.8 seconds>“ direkt in den Input ein. Dies reduziert die Komplexität und verbessert das Verständnis für zeitbasierte Videoaufgaben.

Training mit einer Billion Token auf 10.000 GPUs

Das Training erfolgte in vier Phasen auf Alibaba-Servern mit bis zu 10.000 GPUs. Zunächst erlernte das System die Verknüpfung von Bildern und Text, bevor das vollständige multimodale Training mit etwa einer Billion Token durchgeführt wurde. Die Trainingsdaten stammten aus verschiedenen Quellen: chinesischen und englischen Websites für Bild-Text-Paare, 3 Millionen PDFs aus Common Crawl, über 60 Millionen STEM-Aufgaben aus dem Bildungsbereich sowie Videos von Lehrplattformen bis hin zu YouTube-Material.

In den späteren Phasen erweiterte das System schrittweise seine Fähigkeit, längere Kontexte zu verarbeiten, von 8000 über 32.000 bis zu 262.000 Token. Die „Thinking“-Varianten erhielten zusätzliches Training mit Chain-of-Thought-Daten, um ihre Denkschritte explizit zu durchlaufen und bei komplexen Problemen bessere Ergebnisse zu erzielen.

Apache 2.0 für breitere Nutzung

Alle seit September verfügbaren Qwen3-VL-Modelle stehen unter der Apache-2.0-Lizenz mit offenen Gewichten auf Hugging Face zur Verfügung. Die Modellreihe umfasst Dense-Varianten von 2B bis 32B Parametern sowie Mixture-of-Experts-Modelle mit 30B-A3B (30 Milliarden Parameter, 3 Milliarden aktiv) und 235B-A22B (235 Milliarden Parameter, 22 Milliarden aktiv pro Token).

Einige Fähigkeiten, wie das Extrahieren von Frames aus stundenlangen Videos, sind für ein multimodales Sprachmodell mittlerweile nicht mehr besonders bemerkenswert – Googles Modell Gemini 1.5 Pro war bereits Anfang 2024 dazu in der Lage. Qwen3-VL zeigt jedoch über viele Disziplinen hinweg solide Ergebnisse und ist im Gegensatz zu Googles Modell frei verfügbar. Das Vorgängermodell Qwen2.5-VL ist bereits in vielen agentischen KI-Systemen anderer Forschungsarbeiten integriert, weshalb Qwen3-VL durch seine Fortschritte die Entwicklung insgesamt weiter vorantreiben dürfte.

Bildquelle: Unsplash / Azzedine Rouichi

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like