KI News

Nvidias DreamDojo ist ein Open-Source-Weltmodell für das Robotertraining

2 min Lesezeit
Nvidias DreamDojo ist ein Open-Source-Weltmodell für das Robotertraining

Nvidias Forschungsteam im Bereich Künstliche Intelligenz hat DreamDojo präsentiert, ein Open-Source-Weltmodell, das für das Training von Robotern konzipiert ist. Dieses Modell verarbeitet Motorsteuerungsbefehle und generiert daraus eine simulierte Zukunft in Form von Bildern, ohne auf traditionelle 3D-Engines oder manuell entwickelte physikalische Modelle zurückzugreifen. Jim Fan, der AI-Direktor bei NVIDIA, bezeichnet dies als „Simulation 2.0“.

Herausforderungen beim Robotertraining

Das zentrale Problem beim Training von Robotern in der realen Welt ist, dass es zeitaufwendig, kostspielig und riskant ist. Diese Herausforderungen ergeben sich aus Faktoren wie Zeitaufwand, Verschleiß, Sicherheitsaspekte und der Notwendigkeit, häufig zurückzusetzen. DreamDojo zielt darauf ab, diese Schwierigkeiten zu überwinden, indem es auf 44.000 Stunden an menschlichen Ego-Perspektiv-Videos basiert, die als Trainingsdaten dienen. Die sogenannten „latenten Aktionen“ übersetzen menschliche Bewegungen in ein formatunabhängiges System, was es dem Modell ermöglicht, aus menschlichen Videos zu lernen, ohne jemals einen Roboter gesehen zu haben. In einem weiteren Schritt wird das Modell an die spezifischen Mechaniken eines bestimmten Roboters angepasst. Ein Beispiel für innovative Ansätze in der KI-Forschung ist Agentic Vision: Gemini schreibt sich jetzt eigenen Code, um Bilder besser zu verstehen.

Echtzeit-Operationen und Verfügbarkeit

DreamDojo operiert in Echtzeit mit einer Bildrate von zehn Bildern pro Sekunde und ermöglicht die Fernsteuerung in einer virtuellen Realität, die Bewertung von Roboterstrategien sowie eine vorausschauende Planung direkt im Weltmodell. Jim Fan betont, dass alle Gewichte, der Code und die Daten frei zugänglich sind. Weitere Informationen sind auf der Projektseite sowie in der zugehörigen Publikation zu finden. DreamDojo basiert auf Nvidia Cosmos. Auch die Kombination von LaTeX-Editor und KI ist ein spannendes Thema, wie Prism: OpenAI kombiniert LaTeX-Editor mit GPT-5.2 zeigt.

Ein weiterer interessanter Aspekt ist die Anwendung von KI in Wettbewerben, wie Deepseek präsentiert Erfolge seines KI-Modells bei Mathematik-Olympiade.

KI Snack

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert