Google Deepmind hat mit Gemini Robotics 1.5 und Gemini Robotics-ER 1.5 zwei neue KI-Modelle vorgestellt, die Robotern ermöglichen, komplexe Aufgaben in der realen Welt eigenständig zu planen, zu verstehen und auszuführen. Diese fortschrittlichen Systeme kombinieren multimodale Wahrnehmung, Sprachverarbeitung und motorisches Handeln mit einer ausgeklügelten internen Entscheidungslogik, was einen bedeutenden Schritt in Richtung autonomer Roboter darstellt.
Key Takeaways
- Agentische KI für Roboter: Neue Modelle ermöglichen Robotern, Aufgaben eigenständig zu planen und auszuführen.
- Multimodale Fähigkeiten: Kombination aus Wahrnehmung, Sprachverarbeitung und motorischem Handeln.
- Generalisierbarkeit: Modelle funktionieren über verschiedene Robotertypen hinweg ohne erneutes Training.
- Sicherheitskonzept: Integrierte Mechanismen zur Gewährleistung sicherer Handlungen.
- Verfügbarkeit: Gemini Robotics-ER 1.5 über Gemini-API zugänglich, Gemini Robotics 1.5 für ausgewählte Partner.
Erst planen, dann handeln
Gemini Robotics-ER 1.5 fungiert als übergeordnetes "Gehirn", das Aufgaben plant, digitale Werkzeuge wie die Google Suche nutzt, in natürlicher Sprache kommuniziert und den Fortschritt von Handlungen einschätzt. Laut Google Deepmind erzielt dieses Modell Spitzenleistungen in zahlreichen Benchmarks für verkörpertes Denken. Die zweite Komponente, Gemini Robotics 1.5, setzt diese Anweisungen in konkrete physische Bewegungen um. Ein entscheidender Unterschied zu früheren Modellen ist die Fähigkeit, vor der Ausführung einer Handlung zu "denken": Es erstellt interne Argumentationsketten, zerlegt komplexe Aufgaben in kleinere, ausführbare Schritte und kann seine Entscheidungen erklären. Ein Beispiel hierfür ist das Sortieren von Wäsche, bei dem das Modell zuerst das Ziel erkennt, dann die notwendigen Greifbewegungen plant und diese schließlich ausführt.
Generalisierung über verschiedene Robotertypen
Ein bemerkenswerter Aspekt der neuen Modelle ist ihre Fähigkeit zur Generalisierung über verschiedene Robotertypen hinweg. Bewegungsmuster, die beispielsweise mit dem ALOHA 2-Roboter trainiert wurden, lassen sich laut Google auch auf humanoiden Systemen wie Apptroniks Apollo oder dem Zweiarm-Roboter Franka anwenden, ohne dass ein spezielles Finetuning erforderlich ist. Dies reduziert den Aufwand für die Anpassung an neue Hardware erheblich.
Integriertes Sicherheitskonzept
Zur Absicherung der neuen agentischen Fähigkeiten hat Deepmind ein robustes Sicherheitskonzept implementiert. Gemini Robotics 1.5 prüft semantisch, ob eine geplante Handlung sicher ist, bevor sie ausgeführt wird. Bei Bedarf werden physische Sicherheitsmechanismen wie Kollisionsvermeidung aktiviert, um Schäden zu verhindern.
Verfügbarkeit und Weiterentwicklung
Die Modelle basieren auf der multimodalen Gemini-Modellfamilie und wurden für ihre spezifischen Aufgabenbereiche weiter trainiert. Gemini Robotics-ER 1.5 ist ab sofort über die Gemini-API im Google AI Studio verfügbar. Gemini Robotics 1.5 steht vorerst nur ausgewählten Partnern zur Verfügung. Diese Entwicklung baut auf früheren Veröffentlichungen wie Gemini Robotics im März 2025 und Gemini Robotics On-Device im Juni auf und treibt die Forschung im Bereich agentischer KI-Systeme für die physische Welt weiter voran.