Alibaba hat mit Qwen3-Next ein neues Sprachmodell vorgestellt, das durch eine optimierte Mixture-of-Experts (MoE)-Architektur eine signifikant höhere Geschwindigkeit bei vergleichbarer Leistung verspricht. Dieses fortschrittliche Modell zielt darauf ab, die Effizienz und Leistungsfähigkeit von KI-Anwendungen, insbesondere bei der Verarbeitung langer Texte, zu verbessern.
Schlüsselerkenntnisse
- Alibaba führt Qwen3-Next mit einer neu gestalteten MoE-Architektur ein.
- Das Modell nutzt eine vergrößerte Expertenbasis (512) mit selektiver Aktivierung (10+1 Experten).
- Es bietet eine mehr als zehnfach höhere Geschwindigkeit im Vergleich zu früheren Versionen, besonders bei langen Texteingaben.
- Spezialisierte Varianten für allgemeine Anwendungen und komplexe Denkaufgaben sind verfügbar.
- Die Modelle sind über gängige Plattformen wie Hugging Face und ModelScope zugänglich.
Eine schnellere MoE-Architektur
Alibaba hat mit Qwen3-Next ein neues Sprachmodell veröffentlicht, das auf eine besonders sparsame MoE-Architektur setzt. Während das Vorgängermodell Qwen3 etwa 128 Experten definierte und bei jedem Inferenzschritt acht davon aktivierte, nutzt Qwen3-Next eine deutlich vergrößerte Expertenschicht mit 512 Experten, aktiviert jedoch nur zehn davon plus einen zusätzlichen gemeinsamen Experten. Die Entwickler versprechen eine mehr als zehnfach höhere Geschwindigkeit im Vergleich zum bisherigen Modell Qwen3-32B, insbesondere bei langen Texteingaben mit mehr als 32.000 Tokens.
Stabilitätsfördernde Maßnahmen
Die neue MoE-Variante setzt außerdem auf stabilitätsfördernde Maßnahmen, um typische Probleme wie ungleiche Nutzung der Experten, numerische Instabilitäten oder zufällige Initialisierungsfehler zu vermeiden. Dazu gehören unter anderem eine normalisierte Initialisierung der Router-Parameter oder ein Output-Gating in den Attention-Layern.
Spezialisierte Varianten und Leistung
Neben dem Basismodell wurden zwei spezialisierte Varianten veröffentlicht: Qwen3-Next-80B-A3B-Instruct für allgemeine Anwendungen und Qwen3-Next-80B-A3B-Thinking für komplexe Denkaufgaben. Das kleinere Instruct-Modell erreicht laut dem Unternehmen nahezu die Leistung von Alibabas Flaggschiffmodell Qwen3-235B-A22B-Instruct, insbesondere bei sehr langen Kontexten bis 256.000 Tokens. Das Thinking-Modell schlägt laut Alibaba das geschlossene Gemini-2.5-Flash-Thinking von Google in mehreren Benchmarks und nähert sich in zentralen Metriken dem eigenen Topmodell Qwen3-235B-A22B-Thinking an.
Verfügbarkeit und Kontextlängen
Die Modelle können über Hugging Face, ModelScope oder den Nvidia API Catalog genutzt werden. Für eigene Server empfehlen die Entwickler spezialisierte Frameworks wie sglang oder vllm. Derzeit sind Kontextlängen bis 256.000 Tokens möglich, in Kombination mit speziellen Verfahren auch bis zu einer Million Tokens.