Google Deepmind prognostiziert eine Revolution im maschinellen Sehen: Videomodelle wie das hauseigene Veo 3 könnten zukünftig eine ähnliche Schlüsselrolle einnehmen wie große Sprachmodelle (LLMs) für die Textverarbeitung. Anstatt für jede visuelle Aufgabe ein eigenes spezialisiertes Modell zu entwickeln, könnten universelle Videomodelle eine breite Palette von Aufgaben in einem einzigen System lösen und als Grundlage für visuelle Intelligenz dienen.
Key Takeaways
- Google Deepmind sieht in Videomodellen das Potenzial, Generalisten für visuelle Aufgaben zu werden, ähnlich wie LLMs für Text.
- Veo 3 zeigt beeindruckende Zero-Shot-Fähigkeiten in Bildverarbeitung, physikalischer Modellbildung, Bildmanipulation und visuellem Reasoning.
- Die Entwicklung deutet auf ein "GPT-3-Moment" für das maschinelle Sehen hin.
- Es gibt eine Debatte über den besten Ansatz für zukünftige KI-Modelle im Sehen, mit unterschiedlichen Ansichten von Google und Meta.
Veo 3: Ein vielseitiger Generalist
Googles Videomodell Veo 3 demonstriert in einer aktuellen Analyse überraschend vielseitige Zero-Shot-Fähigkeiten. Ohne zusätzliches Training kann es Aufgaben in der Bildverarbeitung, physikalischen Modellbildung, Bildmanipulation und im visuellen Reasoning bewältigen. Dies wird als frühes Anzeichen für ein "GPT-3-Moment" des maschinellen Sehens interpretiert.
Prompt statt Fine-Tuning
Veo 3 wird über Textinstruktionen und ein Eingangsbild gesteuert und generiert daraus ein achtsekündiges Video in 720p bei 24 Bildern pro Sekunde. Im Gegensatz zu traditionellen Computer-Vision-Modellen benötigt es kein aufgabenspezifisches Training oder nachträgliche Anpassungen. Das Modell meistert klassische Wahrnehmungsaufgaben wie Kantenerkennung und Segmentierung. Es interpretiert auch komplexe visuelle Szenarien und zeigt ein Verständnis für physikalische Prinzipien wie Auftrieb und Spiegelungen. Darüber hinaus ermöglicht Veo 3 Bildmanipulationen wie das Entfernen von Hintergründen oder das Ändern von Perspektiven, wobei es oft Details besser beibehält als spezialisierte Editoren.
Visuelles Reasoning und "Chain-of-Frames"
Besonders hervorzuheben ist Veo 3s Fähigkeit zum visuellen Reasoning. Es kann Labyrinthe lösen, Symmetrien erkennen, Zahlen sortieren und einfache Sudokus lösen – allein basierend auf Bild und Text. Die Forscher bezeichnen dies als "Chain-of-Frames", ein visuelles Analogon zum "Chain-of-Thought" bei Sprachmodellen. Die Leistung des Modells wird maßgeblich durch die Promptgestaltung und die visuelle Darstellung beeinflusst. Es gibt Hinweise darauf, dass in einigen Aufgaben ein LLM-basierter Prompt-Rewriter oder sogar das LLM selbst die Lösung liefert, was die genaue Funktionsweise des Systems als "Black Box" erscheinen lässt. Dennoch deuten die Ergebnisse auf emergente Reasoning-Fähigkeiten im Videomodell hin.
Generalist schlägt Spezialist?
Obwohl Veo 3 noch nicht das Niveau spezialisierter Modelle wie Metas SAMv2 erreicht, sind die Fortschritte bemerkenswert. In quantitativen Tests übertrifft es seinen Vorgänger Veo 2 deutlich und erreicht in einigen Aufgaben Ergebnisse auf Augenhöhe mit spezialisierten Bildmodellen. Die Forscher erwarten, dass Techniken wie Instruction Tuning und Reinforcement Learning with Human Feedback (RLHF) Veo 3 weiter verbessern werden. Google Deepmind glaubt, dass Videomodelle zu vereinheitlichenden Grundmodellen für maschinelles Sehen werden könnten, ähnlich der Rolle von LLMs für die natürliche Sprachverarbeitung. Diese Vision unterstützt die Idee von Deepmind-CEO Demis Hassabis, dass Videomodelle als "Weltmodelle" fungieren könnten, die physikalisch konsistente Simulationen für das KI-Training erzeugen. Diese Ansicht steht jedoch im Kontrast zu Metas KI-Chef Yann LeCun, der generative Weltmodelle als Sackgasse betrachtet und alternative prädiktive Architekturen favorisiert.