Wie positioniert sich das französische Start-up Mistral AI im globalen Wettbewerb der KI-Modelle? Das Unternehmen präsentiert mit Mistral 3 eine neue Generation offener, multimodaler und mehrsprachiger Künstlicher Intelligenz-Modelle. Dieses Angebot umfasst sowohl kompakte Ausführungen für sogenannte Edge-Anwendungen als auch ein umfangreiches Mixture-of-Experts-Modell.
Architektur und Trainingsdetails der neuen Modelle
Mistral AI gibt an, dass die kürzlich eingeführte Modellreihe verschiedene Größen beinhaltet: drei „Ministral“-Modelle mit 3, 8 und 14 Milliarden Parametern. Das Spitzenprodukt innerhalb dieser Reihe ist das „Mistral Large 3“. Dieses Modell stützt sich auf eine sparsame Mixture-of-Experts-Architektur. Für dessen Training wurden etwa 3.000 Nvidia-H200-GPUs eingesetzt. Nach Angaben von Mistral verfügt dieses spezifische Modell über 41 Milliarden aktive Parameter und eine Gesamtzahl von 675 Milliarden Parametern.
Open-Source-Strategie und Leistungsmerkmale
Das Mistral Large 3 ist laut Unternehmensangaben komplett quelloffen und unter der Apache-2.0-Lizenz zugänglich. Es wird erwartet, dass es in der Lage ist, bei gängigen Sprachaufgaben mit führenden offenen Modellen zu konkurrieren und zudem die Fähigkeit besitzt, Bildinhalte zu interpretieren. Die Platzierung auf dem LMArena-Leaderboard zeigt, dass es in der Kategorie der Open-Source-Modelle ohne Reasoning den zweiten Platz belegt. Bei den OSS-Reasoning-Modellen erreicht es den sechsten Rang. Vergleichende Benchmarks demonstrieren, dass das Modell mit den offenen Angeboten von Wettbewerbern wie Qwen oder Deepseek gleichzieht. Es ist jedoch zu beachten, dass Deepseek erst kürzlich mit V3.2 ein aktualisiertes Modell veröffentlicht hat, welches in bestimmten Benchmarks signifikante Verbesserungen gegenüber seiner Vorgängerversion aufweist.
Bildquelle: Shutterstock