Demis Hassabis, der Geschäftsführer von Google Deepmind, prognostiziert innerhalb der nächsten zwölf Monate bedeutende Fortschritte in drei Bereichen: die Konvergenz multimodaler Modelle, interaktive Videowelten sowie zuverlässige KI-Agenten. Besonders die Multimodalität von Gemini eröffnet neue Anwendungsfelder, erläuterte Hassabis während des Axios AI+ Summit.
Ein anschauliches Beispiel führte er anhand einer Szene aus dem Film „Fight Club“ an, in der die KI das Ablegen eines Rings als symbolischen Verzicht auf den Alltag interpretiert. Zudem verwendet das neueste Bildmodell von Google diese multimodalen Fähigkeiten, um visuelle Informationen präzise zu erfassen und beispielsweise Infografiken zu erstellen.
Bildquelle: Unsplash / Traxer