Nvidia-Forschende haben eine kritische Perspektive auf den aktuellen Trend hin zu immer größeren Sprachmodellen (LLMs) in KI-Agenten eingenommen. Sie argumentieren, dass kleinere Sprachmodelle (SLMs) für die meisten Anwendungsfälle ausreichend und deutlich effizienter seien. Diese Verschiebung hin zu SLMs könnte nicht nur die Kosten senken, sondern auch die Umweltbelastung reduzieren und die Zugänglichkeit von KI-Agenten verbessern.
Die Nachteile großer Sprachmodelle
Die Fokussierung auf riesige Sprachmodelle (LLMs) in KI-Agenten birgt laut einem aktuellen Forschungspapier von Nvidia-Wissenschaftlern erhebliche ökonomische und ökologische Nachteile. Die Industrie wird aufgefordert, ihre Strategie zu überdenken, da die meisten Agentenanwendungen von kleineren, spezialisierten Modellen (SLMs) profitieren könnten. Als Richtwert für das Jahr 2025 nennen die Forscher Modelle mit weniger als 10 Milliarden Parametern.
- Massive Investitionen in die falsche Richtung: Der Markt für LLM-APIs, die Agentensystemen zugrunde liegen, wurde 2024 auf 5,6 Milliarden US-Dollar geschätzt, während die Investitionen in die entsprechende Cloud-Infrastruktur auf 57 Milliarden US-Dollar stiegen. Diese Diskrepanz von zehn zu eins deutet auf eine Fehlallokation von Kapital hin.
- Zweifelhafte Renditen: Die Nvidia-Wissenschaftler bezweifeln, dass diese immensen Investitionen in drei bis vier Jahren die erwarteten Renditen liefern werden.
Kleine Modelle als effiziente Alternative
Die Forscher argumentieren, dass SLMs für die meisten Aufgaben in Agentensystemen "prinzipiell ausreichend mächtig", "operativ geeigneter" und "notwendigerweise wirtschaftlicher" seien als ihre großen Pendants. Sie untermauern diese These mit Beispielen:
- Leistungsstarke SLMs: Microsofts Phi-2 (2,7 Milliarden Parameter) erreicht bei Alltagsverstand und Codegenerierung die Leistung von 30-Milliarden-Parameter-Modellen, ist dabei aber 15-mal schneller.
- Nvidias eigene Modelle: Die Nemotron-H-Familie von Nvidia (2, 4, 8 und 9 Milliarden Parameter) erzielt bei Instruktionsbefolgung und Codegenerierung die Genauigkeit von 30-Milliarden-Parameter-LLMs bei einem Bruchteil der benötigten Rechenoperationen.
- Übertreffen großer Modelle: Deepseek-R1-Distill-Qwen-7B übertrifft sogar große proprietäre Modelle wie Claude-3.5-Sonnet und GPT-4o bei Reasoning-Aufgaben.
- RETRO-Modell: Deepminds RETRO-Modell (7,5 Milliarden Parameter) erreicht die Leistung von GPT-3 (175 Milliarden Parameter) mit 25-mal weniger Parametern.
Wirtschaftliche und ökologische Vorteile
Die ökonomischen Argumente für SLMs sind laut den Forschenden überwältigend. Die Bereitstellung eines 7-Milliarden-Parameter-SLM ist 10- bis 30-mal günstiger als die eines 70- bis 175-Milliarden-Parameter-LLM, sowohl in Bezug auf Latenz, Energieverbrauch als auch benötigte Rechenoperationen.
- Schnelles Fine-Tuning: Das Fine-Tuning von SLMs benötigt nur wenige GPU-Stunden statt Wochen, was eine schnelle Anpassung an neue Anforderungen ermöglicht.
- Lokale Ausführung: SLMs können lokal auf Consumer-Hardware ausgeführt werden, was niedrigere Latenz und bessere Datenkontrolle bietet.
- Effizientere Parameternutzung: SLMs scheinen einen höheren Anteil ihrer Parameter effektiv zu nutzen, während LLMs oft nur einen Bruchteil ihrer Parameter für einzelne Eingaben aktivieren, was sie fundamental ineffizient macht.
Agenten brauchen keine Alleskönner
Ein Kernargument der Nvidia-Forschenden ist, dass KI-Agenten nur einen sehr schmalen Bereich der LLM-Fähigkeiten nutzen. "Ein KI-Agent ist im Wesentlichen ein stark instruierter und extern choreografierter Zugang zu einem Sprachmodell", schreiben sie. Die meisten Aufgaben in Agentensystemen sind repetitiv, eingegrenzt und nicht auf Gespräche ausgelegt. Dafür reichen spezialisierte SLMs aus, die für spezifische Formate und Aufgaben fine-getuned wurden.
Die Forscher schlagen heterogene Agentensysteme vor, die verschiedene Modellgrößen je nach Komplexität der Aufgabe einsetzen. SLMs würden standardmäßig verwendet, LLMs nur bei Bedarf für komplexe Reasoning-Aufgaben.
Hürden und Migrationsstrategie
Als Haupthindernisse für die SLM-Adoption identifizieren die Forscher die massiven Vorabinvestitionen in zentralisierte LLM-Infrastruktur, den Fokus auf generalistische Benchmarks bei der SLM-Entwicklung und mangelnde öffentliche Aufmerksamkeit für SLMs. Sie stellen einen sechsstufigen Fahrplan für die Migration von LLM- zu SLM-basierten Agenten vor, der Datensammlung, -kuratierung und -filterung, Aufgaben-Clustering, SLM-Auswahl, spezialisiertes Fine-Tuning und kontinuierliche Verbesserung umfasst.
In Fallstudien schätzen die Forscher, dass 40 bis 70 Prozent der LLM-Anfragen in populären Open-Source-Agenten durch SLMs ersetzt werden könnten. Die Nvidia-Forschenden sehen in der Verlagerung zu SLMs neben einer technischen Verbesserung auch eine moralische Verpflichtung angesichts steigender Infrastrukturkosten und Umweltbelastung.
Obwohl es auf den ersten Blick widersprüchlich erscheinen mag, dass Nvidia-Forscher für kleinere Modelle plädieren, könnte diese Positionierung strategisch sinnvoll sein. Indem KI durch SLMs zugänglicher und wirtschaftlicher wird, könnte Nvidia den Gesamtmarkt für KI-Anwendungen massiv erweitern und die Technologie tief in Unternehmen und auf Endgeräten verankern.