Klings Video O1 kann Szenen, Subjekte und Kameraeinstellungen ändern

Klings Video O1 kann Szenen, Subjekte und Kameraeinstellungen ändern

„Das weltweit erste vereinheitlichte multimodale Videomodell“ – so bezeichnet das chinesische KI-Unternehmen Kling AI sein neues Modell „Video O1“. Dieses System soll verschiedene Aufgaben der Videogenerierung und -bearbeitung in einer einzigen Lösung bündeln und damit einen Fortschritt in der Branche darstellen. Kling AI hat das Modell kürzlich vorgestellt.

Integration multipler Videofunktionen in einem System

Kling AI hebt hervor, dass Video O1 mehrere Funktionen vereint, die zuvor separate Werkzeuge erforderten. Das Modell ist nicht nur in der Lage, Videos mit einer Dauer von drei bis zehn Sekunden auf Basis von Prompts oder Referenzbildern zu erzeugen. Es bietet auch umfassende Bearbeitungsmöglichkeiten bestehender Videos, wie die Modifikation von Protagonisten, Wetterbedingungen, Videostil oder Farbschemata. Beeindruckend ist die Fähigkeit von Video O1, diverse Aufgaben in einem einzigen Prompt zu kombinieren. Anwender können beispielsweise gleichzeitig ein Subjekt hinzufügen, den Hintergrund anpassen und den Gesamtstil ändern.

Die simultane Verarbeitung verschiedener Eingabetypen gehört zu den Kernfunktionen des Modells. Es versteht und verarbeitet bis zu sieben unterschiedliche Eingaben gleichzeitig, darunter Bilder, Videos, Subjekte und Text als Prompts. Benutzer können mittels Textbefehlen wie „Passanten entfernen“ oder „Tageslicht zu Dämmerung ändern“ Videos modifizieren, ohne auf manuelle Maskierungen oder Keyframes zurückgreifen zu müssen.

Konsistenz und multimodale Architektur

Anwender können Charaktere, Requisiten oder Szenen hochladen, die das System dann in diversen Kontexten einbindet. Auch Aktionen oder Kamerabewegungen können als Referenz dienen. Kling AI betont, dass das System die Eingabedaten interpretiert und die Konsistenz von Subjekten, Personen oder Produkten über verschiedene Aufnahmen hinweg gewährleistet. Diese Funktion ist entscheidend für die Erstellung zusammenhängender Videoinhalte.

Die technologische Grundlage von Video O1 bildet ein multimodaler Transformer. Obwohl Kling AI hierbei nicht tiefer ins Detail geht, wird eine „Multimodale Visual Language“ (MVL) als maßgebliches Element genannt. Diese MVL fungiert als Schnittstelle zwischen Text und multimodalen Signalen. Das Modell nutzt zudem sogenannte Reasoning-Ketten, um Ereignisse zu deduzieren. Diese fortschrittlichen Fähigkeiten ermöglichen eine intelligente Videogenerierung, die über eine bloße Musterrekonstruktion hinausgeht.

Interne Evaluierung und Wettbewerbsumfeld

Kling AI hat Video O1 internen Vergleichen mit Konkurrenzprodukten unterzogen, darunter Google Veo 3.1 und Runway Aleph. Bei der Erstellung von Videos aus Bildreferenzen zeigte Video O1 eine signifikant bessere Leistung als Googles „Zutaten zu Video“-Funktion. Im Bereich der Videotransformationen, also der Bearbeitung bestehender Videos, wurde O1 von den Evaluatoren in 230 Prozent der Fälle gegenüber Runway Aleph bevorzugt. Es ist jedoch zu beachten, dass diese Zahlen aus internen Tests von Kling AI stammen und eine externe Verifizierung bislang aussteht.

Das Modell Video O1 ist ab sofort über die Weboberfläche von Kling AI verfügbar. Der Markt für Videobearbeitung und -generierung ist jedoch stark umkämpft. Fast zeitgleich präsentierte Runway sein neuestes und leistungsfähigstes Videomodell, Gen-4.5. Neben etablierten westlichen Akteuren wie Google, OpenAI und Midjourney sieht sich Kling AI auch mit einer Reihe primär kostenoptimierter Wettbewerber aus dem chinesischen Raum konfrontiert, darunter Hailuo, Seedance oder Vidu.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like