Netflix hat ein Open-Source-KI-System zur Entfernung von Objekten in Videos vorgestellt. Das Framework mit dem Namen VOID („Video Object and Interaction Deletion“) ermöglicht es, Objekte aus Videos zu entfernen und gleichzeitig physikalische Effekte, wie Kollisionen, im verbleibenden Material anzupassen.
VOID basiert auf dem Video-Diffusionsmodell CogVideoX von Alibaba, das mit synthetischen Daten aus Googles Kubric und Adobes HUMOTO zur Erkennung von Interaktionen optimiert wurde. Das System nutzt Googles Gemini 3 Pro zur Analyse der Szenen und zur Identifizierung der betroffenen Bereiche, während Metas SAM2 die zu entfernenden Objekte segmentiert. Ein optionaler zweiter Durchlauf kann Formverzerrungen mithilfe von optischem Fluss korrigieren.
Dieses Projekt wurde von Forschern von Netflix in Zusammenarbeit mit der Universität INSAIT in Sofia entwickelt. Der Code, die wissenschaftlichen Arbeiten und eine Demo sind auf Plattformen wie GitHub, arXiv und Hugging Face zugänglich. Das System wird unter der Apache-2.0-Lizenz bereitgestellt, was eine kommerzielle Nutzung ermöglicht. Weitere Informationen über die Herausforderungen und Entwicklungen in der KI finden Sie in unserem Artikel über OpenAI und die Sora-App. Zudem wird in einem anderen Beitrag erläutert, warum KI-Agenten bestehende Software nutzen werden.
„`
Bildquelle: cottonbro studio auf Pexels