Alibaba präsentiert Qwen3.5-397B-A17B: Ein neues KI-Modell
Alibaba hat mit dem Qwen3.5-397B-A17B das erste Modell seiner neuen KI-Serie vorgestellt. Dieses Modell ist in der Lage, Text, Bilder und Videos innerhalb einer einheitlichen Architektur zu verarbeiten und wird als Open-Weight-Modell zur Verfügung gestellt.
Das Modell verfügt über insgesamt 397 Milliarden Parameter, von denen jedoch bei jeder Anfrage lediglich 17 Milliarden aktiv genutzt werden. Ähnlich wie bei anderen großen KI-Modellen kommt hier eine Mixture-of-Experts-Architektur zum Einsatz, bei der je nach spezifischer Aufgabe nur die relevanten Teile des Netzwerks aktiviert werden. Warum Alibabas neues Qwen-Modell realistischere Bilder erzeugt zeigt, wie diese Technik die Bildverarbeitung revolutioniert.
Innovative Architektur und Leistungssteigerung
Das Verhältnis von Gesamt- zu aktiven Parametern bei Qwen3.5 ist, wie bereits beim Vorgängermodell Qwen3-Next, bemerkenswert hoch. Dies deutet auf eine besonders feinkörnige Aufteilung in zahlreiche spezialisierte Experten hin. Darüber hinaus setzt Alibaba auf eine neuartige Aufmerksamkeitsarchitektur, die als Gated Delta Networks bekannt ist, um den Rechenaufwand weiter zu reduzieren. In einem ähnlichen Kontext hat Meta ein geschlossenes KI-Modell „Avocado“ entwickelt, das ebenfalls auf innovative Architekturen setzt.
Das Qwen-Team berichtet, dass Qwen3.5 bei einem Kontextfenster von 256.000 Token Anfragen 19-mal schneller verarbeitet als der deutlich größere Vorgänger Qwen3-Max und 3,5- bis 7-mal schneller als der direkte Vorgänger Qwen3-235B. Dabei bleibt die Leistungsfähigkeit auf einem vergleichbaren Niveau. Ein weiterer interessanter Aspekt ist, dass Agentic Vision: Gemini jetzt eigenen Code schreibt, um Bilder besser zu verstehen, was die Entwicklung von KI-Modellen weiter vorantreibt.