Das US-amerikanische Start-up Physical Intelligence hat ein innovatives Roboter-Modell mit der Bezeichnung π0.7 präsentiert, das in der Lage sein soll, erlernte Fähigkeiten neu zu kombinieren. Dies geschieht auf eine Art und Weise, die an die Funktionsweise von Sprachmodellen erinnert, die Textbausteine aus ihren Trainingsdaten neu anordnen. Die Forscher verweisen auf erste Anzeichen einer „kompositionellen Generalisierung“ in der Robotik.
Das Modell basiert auf dem offenen Sprachmodell Gemma3 von Google, das über vier Milliarden Parameter verfügt. Ergänzt wird es durch ein kleineres Modul mit 860 Millionen Parametern, welches die tatsächlichen Bewegungen der Roboter generiert. Laut Angaben von Physical Intelligence ist jedoch nicht die Architektur des Modells entscheidend, sondern das verwendete Trainingsrezept.
Traditionelle Robotermodelle erhalten im Training häufig nur eine kurze Aufgabenbeschreibung, wie beispielsweise „falte das T-Shirt“. Im Gegensatz dazu erhält π0.7 zusätzliche Informationen, die die Aufgabe unterstützen: Dazu zählen Zwischenschritte in natürlicher Sprache, Angaben zur Qualität und Geschwindigkeit der Demonstration, die Art der Steuerung sowie Zielbilder, die das gewünschte Ergebnis eines Teilschritts veranschaulichen. Diese Zielbilder werden in Echtzeit von einem zweiten, kleineren KI-Modell generiert.
Dieser neuartige Ansatz ermöglicht es, mit Daten unterschiedlicher Qualität zu trainieren. Fehlgeschlagene Versuche oder langsame Demonstrationen können durch Metadaten gekennzeichnet werden, anstatt sie einfach zu verwerfen. Ein Beispiel für die Fortschritte in der KI-Forschung ist der Artikel Vom Face-Plant zu Parkour: Virtuelle Agenten lernen Akrobatik, wenn Forscher immer mehr Netzwerkschichten stapeln, der die Entwicklung von Agenten beschreibt, die komplexe Bewegungen erlernen.
Zusätzlich zeigt die Präsentation von neuen Modellen, wie OpenAI präsentiert neue Modelle: GPT-5.4 mini und nano mit verbesserten Fähigkeiten, wie weit die Technologie bereits fortgeschritten ist. Diese Entwicklungen könnten auch für die Robotik von Bedeutung sein.
Ein weiterer interessanter Aspekt ist der Wettbewerb zur Entwicklung eines kompakten Sprachmodells, der neue Impulse in der KI-Forschung setzen könnte.
„`
Bildquelle: ai-generated-gemini