Das chinesische KI-Unternehmen DeepSeek hat mit seinem Sprachmodell R1 für Aufsehen gesorgt, da die Trainingskosten angeblich nur 294.000 US-Dollar betrugen. Dies wurde in einem Fachartikel in „Nature“ veröffentlicht und sorgte für Diskussionen über die Effizienz und die tatsächlichen Kosten von KI-Modellen.
Schlüsselerkenntnisse
- Das Training des R1-Modells kostete 294.000 US-Dollar.
- Es wurden 512 speziell für den chinesischen Markt entwickelte Nvidia-H800-Chips eingesetzt.
- DeepSeek räumte die Nutzung von A100-Chips in der Vorbereitungsphase für ein kleineres Modell ein.
- Die geringen Kosten könnten die Ausgaben für das zugrundeliegende Deepseek-V3-Modell ausblenden.
Geringe Trainingskosten für DeepSeek R1
Laut einem Fachartikel in der renommierten Zeitschrift „Nature“ hat das Training des R1-Sprachmodells des chinesischen KI-Unternehmens DeepSeek lediglich 294.000 US-Dollar verschlungen. Für dieses Unterfangen wurden 512 Nvidia-H800-Chips verwendet, die speziell für den chinesischen Markt konzipiert wurden. Nvidia bestätigte, dass das Unternehmen die Chips vor der Einführung von Verkaufssperren erhalten hat.
Kontroverse um Chip-Nutzung und Kosten
In dem besagten Paper gibt DeepSeek zu, dass in der Vorbereitungsphase für ein kleineres Modell zusätzlich A100-Chips zum Einsatz kamen. Diese Enthüllung steht im Kontrast zu früheren Vermutungen von US-Behörden, die davon ausgingen, das Unternehmen besitze nicht genehmigte H100-Chips. Die von DeepSeek kommunizierten, bemerkenswert niedrigen Trainingskosten für R1 haben zu erheblichen Kurseinbrüchen am Tech-Markt geführt, da sie die Ausgaben für das zugrundeliegende Deepseek-V3-Modell möglicherweise nicht vollständig widerspiegeln. Die Schätzungen für die Kosten des V3-Modells variieren stark und reichen von ein- bis dreistelligen Millionenbeträgen.