Abstrakte Visualisierung von Videodatenströmen und KI-Verarbeitung.

Google Deepmind: Veo 3 ebnet Weg für universelle Videomodelle im maschinellen Sehen

Google Deepmind prognostiziert eine Revolution im maschinellen Sehen: Videomodelle wie das neuartige Veo 3 könnten zukünftig eine zentrale Rolle einnehmen, ähnlich wie große Sprachmodelle (LLMs) die Verarbeitung natürlicher Sprache transformiert haben. Anstatt für jede visuelle Aufgabe spezialisierte Modelle zu entwickeln, könnten einheitliche Videomodelle eine breite Palette von Aufgaben in einem einzigen System bewältigen und als universelle Grundlage für visuelle Intelligenz dienen.

Key Takeaways

  • Veo 3 zeigt beeindruckende Zero-Shot-Fähigkeiten in Bildverarbeitung, physikalischer Modellbildung und visuellem Reasoning.
  • Das Modell kann per Textanweisung und Eingangsbild ein Video generieren, ohne task-spezifisches Training.
  • Es interpretiert komplexe visuelle Szenarien und demonstriert ein physikalisches Weltverständnis.
  • Veo 3 ermöglicht Bildmanipulationen und zeigt Fähigkeiten im visuellen Reasoning, vergleichbar mit „Chain-of-Thought“ bei LLMs.
  • Die Entwicklung deutet auf ein „GPT-3-Moment“ für das maschinelle Sehen hin.

Ein neues Paradigma für visuelle Aufgaben

Google Deepmind erwartet, dass Videomodelle in Zukunft eine Schlüsselrolle im maschinellen Sehen spielen werden, vergleichbar mit der Bedeutung von großen Sprachmodellen (LLMs) für die Verarbeitung natürlicher Sprache. Dies würde bedeuten, dass anstelle vieler spezialisierter Modelle für Aufgaben wie Segmentierung, Objekterkennung oder Bildbearbeitung ein einziges, universelles Videomodell diese Vielfalt abdecken könnte. Ähnlich wie LLMs heute Texte übersetzen, zusammenfassen oder analysieren, ohne für jede Aufgabe separat trainiert werden zu müssen, könnten Videomodelle künftig als universelle Basis für visuelle Intelligenz fungieren.

Veo 3: Ein Blick in die Zukunft

Das Google-Videomodell Veo 3 hat in einer aktuellen Analyse überraschend vielseitige Zero-Shot-Fähigkeiten unter Beweis gestellt. Ohne zusätzliches Training kann es Aufgaben in den Bereichen Bildverarbeitung, physikalische Modellbildung, Bildmanipulation und visuelles Reasoning lösen. Die Forscher sehen darin ein frühes Anzeichen für ein „GPT-3-Moment“ im maschinellen Sehen.

Veo 3 wird über Textanweisungen und ein Eingangsbild gesteuert und generiert daraus ein achtsekündiges Video in 720p bei 24 Bildern pro Sekunde. Im Gegensatz zu herkömmlichen Computer-Vision-Modellen benötigt es kein aufgabenspezifisches Training oder nachträgliche Anpassungen. Das Modell meistert klassische Wahrnehmungsaufgaben wie Kantenerkennung, Segmentierung und Superresolution. Es interpretiert sogar komplexe visuelle Szenarien wie die Dalmatiner-Illusion oder Rorschach-Flecken im Zero-Shot-Modus.

Darüber hinaus zeigt Veo 3 ein Verständnis für physikalische Prozesse, indem es Auftrieb, Luftwiderstand, Spiegelungen oder Farbmischungen korrekt simuliert. Es kann Objekte in Jenga-ähnlichen Szenen auf physikalisch plausible Weise entfernen. Auch Bildmanipulationen sind möglich: Veo 3 kann Hintergründe entfernen, Objekte umfärben, Perspektiven ändern oder neue Ansichten erzeugen, wobei es oft Details und Texturen besser bewahrt als spezialisierte Editoren, auch wenn ungewollte Animationen noch eine Schwachstelle darstellen.

Visuelles Reasoning und die „Chain-of-Frames“

Besonders bemerkenswert ist Veo 3s Fähigkeit zum visuellen Reasoning. Das Modell löst Labyrinthe, erkennt Symmetrien, sortiert Zahlen, extrapoliert Regeln oder löst einfache Sudokus – allein basierend auf Bild und Text. Die Forscher bezeichnen dies als „Chain-of-Frames“, ein visuelles Analogon zum „Chain-of-Thought“-Prinzip bei Sprachmodellen.

Die Leistung des Modells wird maßgeblich durch die Promptgestaltung und die visuelle Darstellung beeinflusst. So kann beispielsweise ein grüner Hintergrund die Segmentierungsergebnisse verbessern. In einigen Fällen wird vermutet, dass ein LLM-basierter Prompt-Rewriter oder sogar das LLM selbst die Lösung liefert, wie bei Sudoku-Aufgaben. Dennoch deuten Tests mit Gemini 2.5 Pro darauf hin, dass zentrale visuelle Aufgaben wie Roboternavigation oder Labyrinthlösung nicht zuverlässig vom LLM allein gelöst werden können, was auf emergente Reasoning-Fähigkeiten im Videomodell hindeutet.

Generalisten auf dem Vormarsch

Obwohl Veo 3 derzeit noch nicht das Niveau spezialisierter Modelle wie Metas SAMv2 erreicht, deuten die rasanten Fortschritte auf ein hohes Entwicklungstempo hin. In quantitativen Tests übertraf Veo 3 seinen Vorgänger Veo 2 deutlich und erreicht in einigen Aufgaben Ergebnisse auf Augenhöhe mit spezialisierten Bildmodellen. Die Forscher erwarten, dass Techniken wie Instruction Tuning oder Reinforcement Learning with Human Feedback (RLHF) Veo 3 weiter verbessern werden, ähnlich der Entwicklung früher LLMs.

Die Autoren sind überzeugt, dass Videomodelle zu vereinheitlichenden, allgemein einsetzbaren Grundmodellen für maschinelles Sehen werden, so wie LLMs es für die natürliche Sprachverarbeitung geworden sind. Diese Ansicht unterstützt die Vision von Deepmind-CEO Demis Hassabis, der Videomodelle als „Weltmodelle“ betrachtet, die physikalisch konsistente Simulationen für effizientes KI-Lernen ermöglichen. Allerdings gibt es auch Gegenpositionen, wie die von Metas KI-Chef Yann LeCun, der generative Weltmodelle kritisch sieht und alternative prädiktive Architekturen favorisiert.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like