Tencent hat mit HunyuanWorld-Voyager ein neues KI-System vorgestellt, das aus einem einzigen Bild realistische und räumlich konsistente 3D-Welten generieren kann. Dieses innovative Modell ermöglicht es Nutzern, vordefinierte Kamerabewegungen durch diese KI-generierten Umgebungen zu steuern und erhält dabei zusammenhängende Videosequenzen, ohne aufwendige 3D-Modelle zurückgreifen zu müssen.
Schlüsselerkenntnisse
- Generiert realistische 3D-Welten aus Einzelbildern.
- Ermöglicht stabile und konsistente Kamerafahrten.
- Kombiniert RGB- und Tiefeninformationen für verbesserte Genauigkeit.
- Nutzt einen "World Cache" zur Speicherung und Aktualisierung von Szenen.
- Erreicht Bestwerte in Benchmarks für Kamerakontrolle und räumliche Konsistenz.
Die Technologie hinter Voyager
Das Herzstück von HunyuanWorld-Voyager ist die gleichzeitige Generierung von RGB- und Tiefenvideo (RGB-D). Diese Tiefeninformationen ermöglichen es dem System, Entfernungen präzise einzuschätzen und typische Fehler zu vermeiden, die bei der Betrachtung von Objekten aus ungewöhnlichen Blickwinkeln auftreten können. Dies führt zu einer höheren geometrischen Konsistenz, selbst bei komplexen Szenen.
Ein "World Cache" für Konsistenz
Ein zentrales Element von Voyager ist der sogenannte „World Cache“. Dieses Speichersystem bewahrt bereits gesehene und erzeugte Bildbereiche auf und wird mit jeder neuen Kamerabewegung aktualisiert. Wenn verdeckte Bereiche wieder sichtbar werden, greift das System auf diesen Cache zurück. Durch die Entfernung redundanter Informationen wird der Speicherbedarf optimiert, was auch längere und komplexere Kamerafahrten stabil und konsistent hält.
Training und Leistung
Für das Training von Voyager nutzte Tencent eine umfangreiche Sammlung realer Videos und Szenen aus der Unreal Engine. Diese Daten wurden mit automatisch geschätzten Kameraposen und metrischer Tiefe versehen, um dem System beizubringen, wie sich Kameras realistisch durch Räume bewegen und wie Objekte aus verschiedenen Perspektiven erscheinen. Im WorldScore-Benchmark erzielte Voyager laut Tencent Bestwerte in Kategorien wie Kamerakontrolle und räumliche Konsistenz.
Anwendungsbereiche und Ergänzung zu HunyuanWorld 1.0
Die gleichzeitige Ausgabe von RGB- und Tiefenvideo ermöglicht eine direkte 3D-Rekonstruktion, beispielsweise als Punktwolken oder Gaussian-Proxys, ohne fehleranfällige Nachbearbeitung. Neben der Videoerzeugung kann Voyager auch zur Ableitung von 3D-Objekten aus einem Bild, zur Analyse der Tiefenstruktur von Videos oder zur Übertragung von Bildstilen ohne Verlust der Geometrie verwendet werden. Voyager ergänzt HunyuanWorld 1.0, indem es dessen Schwächen bei der Erkundungsreichweite und bei verdeckten Bereichen adressiert und so längere, konsistentere Kamerafahrten ermöglicht.
Abgrenzung zu Konkurrenzsystemen
Im Vergleich zu Systemen wie Googles Genie 3, das auf interaktive Welten mit textbasierten Ereignissen abzielt, oder Mirage 2, das interaktive Demos im Browser bietet, konzentriert sich Voyager auf die Produktions- und 3D-Pipeline. Während Konkurrenzprodukte oft auf Live-Gameplay und Interaktivität ausgerichtet sind, liegt Tencents Fokus auf der Erzeugung stabiler visueller Inhalte und der Integration in bestehende 3D-Workflows.