Tencent hat mit Hunyuan-Large-Vision ein neues multimodales KI-Modell vorgestellt, das in China für Aufsehen sorgt. Das Modell erreicht in einer Rangliste für Bildverständnis den Spitzenplatz unter allen chinesischen Modellen und positioniert sich auf dem globalen LMArena Vision Leaderboard auf Platz 16, vergleichbar mit der Leistung von Claude Sonnet 3.5.
Hunyuan-Large-Vision übertrifft chinesische Konkurrenz
Hunyuan-Large-Vision hat sich als führendes multimodales KI-Modell in China etabliert. Es übertrifft sogar das bisher hoch angesehene Qwen2.5-VL in seiner größten Konfiguration. Laut Tencent erzielte das Modell eine durchschnittliche Punktzahl von 79,5 auf dem OpenCompass Academic Benchmark und zeichnet sich besonders durch seine Fähigkeiten in mehrsprachigen Aufgaben aus.
- Erreicht Platz 16 im globalen LMArena Vision Leaderboard.
- Übertrifft chinesische Modelle wie Qwen2.5-VL.
- Zeigt starke Leistungen in mehrsprachigen Aufgaben.
Leistungsfähigkeit und Anwendungsbeispiele
Das Modell erzielt Spitzenwerte in verschiedenen Benchmarks, darunter Visual-QA, Videoanalyse, Mathematik, OCR und 3D-Aufgaben. Tencent demonstrierte die Vielseitigkeit von Hunyuan-Large-Vision anhand von Beispielen wie der korrekten Erkennung einer Iris lactea Blume, der Erstellung eines Gedichts basierend auf einem Bild der Seine, der Bereitstellung strategischer Ratschläge für ein Go-Spiel und der Übersetzung von Fragen ins Spanische. Das Modell soll auch mit weniger verbreiteten Sprachen gut umgehen können.
Technische Architektur und Trainingsmethoden
Die Architektur von Hunyuan-Large-Vision basiert auf drei Hauptkomponenten: einem spezialisierten Vision Transformer mit einer Milliarde Parametern für die Bildverarbeitung, einem Verbindungsmodul zwischen Bild- und Textverarbeitung und einem Sprachmodell nach dem Mixture-of-Experts-Prinzip mit insgesamt 389 Milliarden Parametern, von denen 52 Milliarden aktiv sind. Tencent entwickelte innovative Trainingsmethoden, darunter eine Pipeline zur Erstellung hochwertiger Trainingsdaten aus verrauschten Rohdaten und Rejection Sampling Fine-Tuning zur Verbesserung der Reasoning-Fähigkeiten. Eine weitere Technik ist die Destillation von komplexen zu einfachen Denkprozessen, um die Effizienz zu steigern.
Innovative Trainingsmethoden und Verfügbarkeit
Für das Training nutzte Tencent das hauseigene Angel-PTM Framework und entwickelte eine Strategie zur gleichmäßigen Lastverteilung auf mehreren Ebenen, um die Trainingszeit zu verkürzen. Hunyuan-Large-Vision ist ausschließlich über die Tencent Cloud per API verfügbar. Aufgrund seiner Größe ist das Modell nicht für Consumer-Hardware ausgelegt.