Wissenschaftler des Allen Institute for AI und der Universität Berkeley haben ein neues Mixture-of-Experts-Modell namens EMO entwickelt, das modulare Strukturen bereits während des Pretrainings bildet. Dieses Modell kann auf einen geringen Teil seiner Experten reduziert werden, ohne signifikante Leistungseinbußen zu erleiden.
Mixture-of-Experts-Architekturen (MoE) sind mittlerweile in modernen Sprachmodellen wie DeepSeek-V4 oder Qwen3.5 weit verbreitet. Sie aktivieren für jedes Token lediglich einen kleinen Teil ihrer Experten und ermöglichen so eine effiziente Skalierung auf Hunderte von Milliarden Parametern. In der praktischen Anwendung muss jedoch das gesamte Modell im Speicher vorhanden sein, da verschiedene Tokens innerhalb einer Aufgabe unterschiedliche Experten ansprechen. Wer beispielsweise ausschließlich Mathematik oder Programmcode generieren möchte, kann nicht nur einen Teil des Modells verwenden. Neues Framework zeigt, dass Experten in herkömmlichen MoEs oft auf oberflächliche sprachliche Muster spezialisiert sind. Sie reagieren beispielsweise auf Präpositionen, Satzzeichen oder bestimmte Artikel, jedoch nicht auf komplexere Bereiche wie Mathematik oder Programmierung. Daher ist es schwierig, einen sinnvollen Teilbereich des Modells herauszulösen.
Zusätzlich hat OpenAI einen Wettbewerb gestartet, um die Entwicklung eines kompakten Sprachmodells voranzutreiben, das möglicherweise neue Ansätze in der KI-Forschung fördern könnte. Forscher arbeiten auch daran, die Fähigkeiten von virtuellen Agenten zu erweitern, wie in einem aktuellen Projekt, das die Akrobatik von Agenten untersucht. Vom Face-Plant zu Parkour: Virtuelle Agenten lernen Akrobatik, wenn Forscher immer mehr Netzwerkschichten stapeln.
„`
Quellen: the-decoder
Bildquelle: KI generiert