Nvidia-Forschende haben eine kritische Perspektive auf den aktuellen KI-Trend eingenommen und plädieren für einen stärkeren Einsatz von kleineren Sprachmodellen (SLMs) in KI-Agenten. Sie argumentieren, dass die Fokussierung auf überdimensionierte Large Language Models (LLMs) ökonomische und ökologische Nachteile mit sich bringt und die Industrie ihre Strategie überdenken sollte.
Kleine Modelle als effiziente Alternative
Die Wissenschaftler von Nvidia stellen fest, dass die meisten KI-Agenten unnötigerweise auf riesige Sprachmodelle setzen, obwohl kleinere Modelle für die meisten Anwendungsfälle völlig ausreichend wären. Sie schlagen vor, dass Modelle mit weniger als 10 Milliarden Parametern bis 2025 zum Standard werden sollten. Diese SLMs seien nicht nur "prinzipiell ausreichend mächtig", sondern auch "operativ geeigneter" und "notwendigerweise wirtschaftlicher" als ihre großen Pendants.
- SLMs sind für die meisten Aufgaben in Agentensystemen ausreichend.
- Sie sind operativ besser geeignet und wirtschaftlicher.
- Kleine Modelle zeigen beeindruckende Leistungen, oft vergleichbar mit größeren Modellen.
Technische Leistungsfähigkeit kleiner Modelle
Die Forschungsergebnisse untermauern diese These mit Beispielen. Microsofts Phi-2 (2,7 Milliarden Parameter) erreicht die Leistung von 30-Milliarden-Parameter-Modellen bei alltäglichem Verstand und Codegenerierung, ist dabei aber 15-mal schneller. Nvidias eigene Nemotron-H-Familie (2, 4, 8 und 9 Milliarden Parameter) erzielt bei der Befolgung von Anweisungen und Codegenerierung die Genauigkeit von 30-Milliarden-Parameter-LLMs bei einem Bruchteil der benötigten Rechenoperationen. Sogar Deepseek-R1-Distill-Qwen-7B übertrifft bei Reasoning-Aufgaben proprietäre Modelle wie Claude-3.5-Sonnet und GPT-4o.
Wirtschaftliche Vorteile und praktische Anwendung
Die ökonomischen Argumente für SLMs sind laut den Forschenden überzeugend. Die Bereitstellung eines 7-Milliarden-Parameter-SLM ist 10- bis 30-mal günstiger als die eines 70- bis 175-Milliarden-Parameter-LLM, sowohl in Bezug auf Latenz, Energieverbrauch als auch benötigte Rechenoperationen. Das Fine-Tuning von SLMs erfordert nur wenige GPU-Stunden statt Wochen, was eine schnelle Anpassung ermöglicht. Zudem können SLMs lokal auf Consumer-Hardware ausgeführt werden, was niedrigere Latenz und bessere Datenkontrolle bietet.
Heterogene Systeme und Migrationsstrategie
Nvidia-Forschende schlagen heterogene Agentensysteme vor, die je nach Aufgabenkomplexität verschiedene Modellgrößen nutzen. SLMs sollen standardmäßig eingesetzt werden, LLMs nur bei Bedarf für komplexe Reasoning-Aufgaben. Als Haupthindernisse für die SLM-Adoption sehen sie die massiven Vorabinvestitionen in LLM-Infrastruktur, den Fokus auf generalistische Benchmarks und mangelnde öffentliche Aufmerksamkeit für SLMs. Sie präsentieren einen sechsstufigen Fahrplan zur Migration von LLM- zu SLM-basierten Agenten.
Strategische Bedeutung für Nvidia
Obwohl es auf den ersten Blick widersprüchlich erscheinen mag, dass Nvidia-Forscher kleinere Modelle befürworten, ist diese Positionierung strategisch sinnvoll. Indem KI durch SLMs zugänglicher und wirtschaftlicher wird, könnte Nvidia den Gesamtmarkt für KI-Anwendungen massiv erweitern und die Technologie tief in Unternehmen und auf Endgeräten verankern.