Tencent hat mit Hunyuan GameCraft ein bahnbrechendes KI-Framework vorgestellt, das statische Bilder in interaktive Gaming-Videos verwandelt. Im Gegensatz zu herkömmlichen Videogeneratoren ermöglicht GameCraft Nutzern, die Kameraperspektive in Echtzeit zu steuern und sich frei durch die generierten Szenen zu bewegen.
Wichtige Erkenntnisse
- Hunyuan GameCraft wandelt einzelne Bilder in dynamische, interaktive Videos um.
- Nutzer können die Kameraperspektive in Echtzeit mit WASD- oder Pfeiltasten steuern.
- Das Framework basiert auf Tencents Text-zu-Video-Modell HunyuanVideo.
- Eine spezielle Hybrid-Trainingsmethode sichert hohe Videoqualität und Konsistenz über längere Sequenzen.
- Trainiert wurde das System mit über einer Million Gameplay-Aufzeichnungen aus AAA-Spielen.
- Es erreicht eine "Echtzeit"-Rendering-Rate mit geringer Latenz für praktische Interaktivität.
Interaktive Videogenerierung
Hunyuan GameCraft erweitert die Möglichkeiten der Videogenerierung erheblich, indem es eine interaktive Komponente hinzufügt. Basierend auf dem Text-zu-Video-Modell HunyuanVideo, ermöglicht es flüssige und konsistente Kamerafahrten. Die Steuerung erfolgt über gängige Gaming-Eingaben wie WASD- oder Pfeiltasten, wodurch sich Nutzer frei in den generierten Szenen bewegen können.
Technisch wird die Kameraposition und -orientierung im dreidimensionalen Raum präzise durch drei Translations- und zwei Rotationsachsen beschrieben. Ein sogenannter Action Encoder verarbeitet Nutzereingaben und wandelt sie in numerische Repräsentationen um, die das Videogenerierungsmodell versteht. Dies berücksichtigt auch Geschwindigkeitsparameter, um die Bewegungsdynamik anzupassen.
Hybrid-Training für Qualität und Konsistenz
Um Qualitätsverluste bei längeren Videosequenzen zu vermeiden, setzt Hunyuan GameCraft auf eine innovative Trainingsmethode namens Hybrid History-Conditioned Training. Dieses Verfahren generiert neue Videoinhalte schrittweise, wobei jeder neue Abschnitt auf dem vorherigen aufbaut. Videos werden in etwa 1,3 Sekunden lange Segmente unterteilt.
Eine binäre Maske unterscheidet zwischen bereits existierenden und neu zu generierenden Bildbereichen, was Konsistenz und Flexibilität gewährleistet. Diese hybride Strategie überwindet die Nachteile traditioneller Methoden, die entweder zu Qualitätsverlusten führen oder die Reaktionsfähigkeit auf Nutzereingaben einschränken. Das Ergebnis sind flüssige, konsistente Videos, die auch bei längerer Dauer sofort auf Eingaben reagieren.
Umfangreiches Training und Leistung
Hunyuan GameCraft wurde mit einem riesigen Datensatz von über einer Million automatisch ausgewerteter Gameplay-Aufzeichnungen trainiert, die aus mehr als 100 AAA-Spielen wie Assassin’s Creed und Cyberpunk 2077 stammen. Zusätzlich wurden 3.000 Motion-Sequenzen aus digitalen 3D-Objekten erstellt. Das Training erfolgte in zwei Phasen auf 192 Nvidia-H20-GPUs über 50.000 Iterationen.
In Vergleichstests zeigte GameCraft eine Reduzierung der Interaktionsfehler um 55 Prozent gegenüber Matrix-Game und übertraf spezialisierte Kamerasteuerungsmodelle in Bildqualität und Steuerpräzision. Durch die Integration des Phased Consistency Model (PCM) wurde die Inferenzgeschwindigkeit um das 10- bis 20-Fache erhöht. Das System erreicht eine Echtzeit-Rendering-Rate von 6,6 Bildern pro Sekunde und reduziert die Reaktionslatenz auf unter fünf Sekunden, während es intern mit 25 Bildern pro Sekunde arbeitet.
Verfügbarkeit und Wettbewerb
Der Code von Hunyuan GameCraft, einschließlich der Modellgewichte, ist auf GitHub verfügbar, und eine Web-Demo wurde angekündigt. Tencent reiht sich damit in die wachsende Zahl interaktiver KI-Weltmodelle ein. Konkurrenz kommt unter anderem von Google DeepMind mit Genie 3 und dem Open-Source-Projekt Matrix-Game 2.0 von Skywork.