Alibaba KI gegen Google KI

Alibaba fordert Google heraus: Wan2.5-Videomodell mit integrierter Audio-Erzeugung tritt gegen Veo 3 an

Alibaba hat sein neues Videomodell Wan2.5-Preview veröffentlicht, das über eine integrierte Audio-Erzeugung verfügt und Videos mit synchronisiertem Ton generieren kann. Dieses multimodale System verarbeitet Text, Bilder, Video und Audio in einem einheitlichen Rahmen und zielt darauf ab, mit Googles Veo 3 gleichzuziehen.

Schlüsselerkenntnisse

  • Alibabas Wan2.5-Preview kann Videos mit synchronisiertem Ton, einschließlich Stimmen und Musik, erstellen.
  • Das Modell generiert Videos mit einer Auflösung von 1080p und einer Länge von 10 Sekunden.
  • Es kann auch Bilder erstellen und bearbeiten, wobei die Benutzeroberfläche an OpenAIs Sora erinnert.
  • Im Gegensatz zu seinem Vorgänger ist Wan2.5-Preview nicht Open Source verfügbar.
  • Die Nutzung ist kostenpflichtig, aber die API-Kosten sind deutlich niedriger als bei Googles Veo 3.

Multimodale Architektur und Fähigkeiten

Wan2.5-Preview basiert auf einer multimodalen Architektur, die Text, Bilder, Video und Audio in einem einzigen System verarbeitet. Dieses gemeinsame Training über verschiedene Medientypen hinweg soll eine bessere Abstimmung zwischen den einzelnen Elementen ermöglichen. Alibaba gibt zwar nur oberflächliche Details zur Architektur preis, erwähnt aber den Einsatz von Reinforcement Learning durch menschliches Feedback. Das Modell wird als wichtiger Schritt in Richtung eines "Weltmodells" bezeichnet.

Videos mit synchronisiertem Ton

Das Modell ist in der Lage, Videos mit synchronisiertem Audio zu erstellen, was Stimmen, Soundeffekte und Hintergrundmusik einschließt. Die generierten Videos erreichen eine Auflösung von 1080p und eine Länge von 10 Sekunden. Ein auf X veröffentlichtes Demonstrationsvideo zeigt zwar die Fähigkeit zur Audio-Generierung, lässt aber bei genauerer Betrachtung leichte Synchronisationsprobleme zwischen Bild und Ton erkennen, insbesondere bei der Darstellung eines konsistenten Gesichts.

Bildgenerierung und -bearbeitung

Neben der Videogenerierung bietet Wan2.5-Preview über die Plattform wan.video auch Funktionen zur Bilderstellung und -bearbeitung. Nutzer können fotorealistische Bilder, verschiedene Kunststile und Diagramme erzeugen lassen. Bildbearbeitungen können per Sprachbefehl gesteuert werden, beispielsweise zur Änderung von Produktfarben oder zur Kombination verschiedener Konzepte. Die Benutzeroberfläche von wan.video weist Ähnlichkeiten mit der von OpenAIs Sora auf.

Preisgestaltung und Verfügbarkeit

Im Gegensatz zu früheren Alibaba-Modellen ist Wan2.5-Preview nicht als Open Source verfügbar. Die Nutzung ist über die Plattform wan.video mit einem monatlichen Abonnement ab 6,50 US-Dollar oder per Credit-Aufladung möglich, wobei ein Clip zwischen 13 und 25 Cent kostet. Die API-Kosten liegen zwischen 5 und 15 US-Cent pro Sekunde Video, was deutlich unter den Kosten von Googles Veo 3 liegt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like