Nvidia hat mit dem Rubin CPX einen neuen spezialisierten Beschleuniger für die KI-Inferenz vorgestellt. Diese Neuerung, die speziell auf die "Prefill"-Phase abzielt, könnte laut einer Analyse von SemiAnalysis den technologischen Vorsprung von Nvidia weiter ausbauen und Konkurrenten wie AMD zwingen, ihre Entwicklungspläne grundlegend zu überdenken.
Key Takeaways
- Nvidia’s Rubin CPX ist eine spezialisierte GPU- und Rack-Lösung, die die Effizienz der KI-Inferenz durch Trennung von "Prefill" und "Decode" steigern soll.
- Die Lösung nutzt kostengünstigeren GDDR7-Speicher und PCIe Gen 6, was die Produktionskosten im Vergleich zu herkömmlichen High-End-GPUs senkt.
- Konkurrenten wie AMD könnten gezwungen sein, eigene "Prefill"-Chips zu entwickeln, was ihre Roadmap verzögern würde.
- Nvidias Systeminnovationen setzen den gesamten Markt unter Druck, sich anzupassen oder zurückzufallen.
Die Herausforderung der KI-Inferenz
Die Inferenz von Sprachmodellen, ein entscheidender Schritt bei der Ausführung von KI-Anwendungen, besteht aus zwei Phasen mit unterschiedlichen Anforderungen. Die "Prefill"-Phase, die das erste Token aus einer Eingabeaufforderung generiert, ist rechenintensiv (FLOPS-gebunden) und benötigt vergleichsweise wenig Speicherbandbreite. Die nachfolgende "Decode"-Phase, die weitere Tokens erzeugt, ist hingegen speicherbandbreiten-gebunden und lastet die Rechenkerne weniger aus.
SemiAnalysis hebt hervor, dass die Ausführung der "Prefill"-Phase auf herkömmlichen High-End-GPUs mit teurem High Bandwidth Memory (HBM) eine Verschwendung darstellt, da die kostspielige Speicherbandbreite kaum genutzt wird. Dieser ineffiziente Ressourceneinsatz war der Auslöser für die Entwicklung des Rubin CPX.
Rubin CPX: Eine spezialisierte und kostengünstige Lösung
Der Rubin CPX wurde als Chip konzipiert, der auf hohe Rechenleistung bei gleichzeitig geringerer und kostengünstigerer Speicherbandbreite optimiert ist. Laut der Analyse bietet der Chip 20 PFLOPS an dichter FP4-Rechenleistung, aber nur 2 TB/s Speicherbandbreite, bereitgestellt durch 128 GB GDDR7-Speicher. Zum Vergleich: Die kommende Standard-GPU Rubin R200 soll 33,3 PFLOPS, 288 GB HBM4-Speicher und eine Speicherbandbreite von 20,5 TB/s aufweisen.
Durch die Verwendung des günstigeren GDDR7-Speichers und den Verzicht auf teureres Packaging sollen die Produktionskosten des Rubin CPX laut SemiAnalysis nur ein Viertel der Kosten eines R200-Packages betragen. Für die interne Kommunikation setzt der CPX auf PCIe Gen 6 anstelle des schnelleren NVLink, was für "Prefill"-Aufgaben mittels Pipeline-Parallelismus als ausreichend erachtet wird und weitere Kosten spart.
Konkurrenz unter Zugzwang
Der Schritt zum "disaggregated Serving" mit spezialisierter Hardware setzt die Konkurrenz unter erheblichen Druck. AMD steht kurz davor, mit seinem MI400-Rack-System Nvidias Standard-Rubin-Architektur zu erreichen. Ohne einen eigenen "Prefill"-Chip würde AMD jedoch ein System anbieten, das bei den Gesamtbetriebskosten (TCO) für Inferenz-Workloads unterlegen wäre. Zudem hat Nvidia die Speicherbandbreite des R200 auf 20,5 TB/s erhöht, was einen wichtigen Vorteil des MI400 egalisiert.
Große Unternehmen mit internen Workloads wie Google, AWS und Meta sind laut der Analyse besser positioniert, um eigene spezialisierte Chips zu entwickeln. Dennoch stellt die Notwendigkeit, dies tun zu müssen, eine erhebliche zusätzliche Hürde dar und verzögert ihre Bemühungen, Parität mit Nvidia zu erreichen. Nvidias Strategie, Innovationen auf Systemebene voranzutreiben, zwingt den gesamten Markt, sich anzupassen oder technologisch zurückzufallen.