IBM hat die vierte Generation seiner Granite Sprachmodelle vorgestellt. Mit Granite 4.0 bringt das Unternehmen eine innovative hybride Architektur auf den Markt, die den Speicherbedarf deutlich reduziert, ohne Kompromisse bei der Leistung einzugehen. Die Modelle sind als Open Source verfügbar und setzen neue Maßstäbe für professionelle KI-Anwendungen in Unternehmen.
Wichtigste Erkenntnisse
- Granite 4.0 nutzt eine hybride Mamba/Transformer-Architektur
- Bis zu 70 % weniger RAM-Verbrauch bei der Inferenz
- Vier Modellvarianten decken unterschiedliche Anwendungsbereiche ab
- Modelle sind Open Source und ISO/IEC 42001:2023-zertifiziert
- Optimiert für Edge-Geräte und Unternehmens-Workflows
Granite 4.0 im Überblick
Granite 4.0 bildet mit vier neuen Modellen das Herzstück für agentische Workflows und typische Aufgaben wie Kundenservice oder Retrieval-Augmented Generation (RAG). IBM setzt auf eine innovative Kombination aus Mamba-2- und Transformer-Schichten (9:1-Verhältnis), wodurch insbesondere bei langen Kontexten Speicher effizient genutzt wird.
Die Modelle teilen sich in zwei hybride Modelle (Granite-4.0-H-Small, Granite-4.0-H-Tiny) und zwei dichtere Modelle (Granite-4.0-H-Micro, Granite-4.0-Micro) auf:
| Modell | Typ | Parameter | Aktiv |
|---|---|---|---|
| Granite-4.0-H-Small | Hybrides MoE-Modell | 32 Mrd. | 9 Mrd. |
| Granite-4.0-H-Tiny | Hybrides MoE-Modell | 7 Mrd. | 1 Mrd. |
| Granite-4.0-H-Micro | Dichtes Hybridmodell | 3 Mrd. | 3 Mrd. |
| Granite-4.0-Micro | Klassisches Transformermod. | 3 Mrd. | 3 Mrd. |
Insbesondere Edge- und Low-Latency-Szenarien profitieren von den kompakten Varianten, während das H-Small-Modell als Allrounder für produktive Workflows konzipiert ist.
Technische Highlights und Architektur
Im Kern der Granite 4.0-Modelle steht die Verschmelzung von Mamba-2- und Transformer-Layern. Während Transformer herausragend beim In-Context-Learning (z.B. Prompt-Optimierung) sind, skaliert Mamba effizient bei langen Eingaben und benötigt deutlich weniger Speicher durch sequentielle Verarbeitung. IBM erreicht dadurch bis zu 70 % weniger RAM-Verbrauch, ideal für parallele Anwendungen und lange Kontexte.
Ein besonderes Merkmal ist der Einsatz von Mixture-of-Experts (MoE)-Blöcken mit jederzeit aktiven „shared experts“, die für höhere Parametereffizienz sorgen. Die hybride Architektur schafft eine bisher unerreichte Balance aus Leistung und Ressourcenschonung.
Open Source, Zertifizierung und Kompatibilität
Die Granite 4.0-Modelle stehen unter der Apache 2.0-Lizenz als Open Source bereit, sind kryptographisch signiert und als erste Sprachmodelle nach ISO/IEC 42001:2023 zertifiziert. IBM garantiert ethische und unternehmensgeeignete Datenquellen und gewährt eine unbegrenzte Freistellung bei Drittanbieter-IP-Ansprüchen für Inhalte auf watsonx.ai.
Optimiert sind die Modelle für verschiedenste Umgebungen, darunter AMD Instinct MI-300X, Hexagon-NPUs von Qualcomm, sowie Plattformen wie Docker Hub, Hugging Face und NVIDIA NIM. In Kürze sollen sie auch über Amazon SageMaker und Microsoft Azure verfügbar sein.
Verfügbarkeit und Anwendungsbereiche
Die Granite 4.0 Instruct-Modelle sind bereits in IBM watsonx.ai, auf Partner-Plattformen sowie als Basis-Modelle auf Hugging Face zugänglich. Durch umfassende Integrationstools und technische Dokumentationen können sie leicht in bestehende Unternehmensprozesse eingebunden und individuell angepasst werden.
Mit Granite 4.0 setzt IBM ein deutliches Zeichen für leistungsfähige, anpassbare und ressourcenschonende KI-Lösungen im Unternehmensumfeld.