Google Deepmind hat sein Gemini-3-Flash-Modell um eine neue Funktion namens Agentic Vision erweitert. Diese Innovation ermöglicht es dem Modell, Bilder nicht nur passiv zu betrachten, sondern aktiv zu analysieren. Allerdings ist diese Funktionalität noch nicht in allen Situationen automatisch verfügbar.
Traditionelle KI-Modelle verarbeiten Bilder in einem einzigen Schritt. Wenn dabei ein Detail übersehen wird, bleibt nur das Raten. Mit Agentic Vision möchte Google Deepmind diese Limitierung überwinden. Das Modell ist in der Lage, Bilder schrittweise zu vergrößern, zuzuschneiden und zu manipulieren, indem es Python-Code generiert und ausführt. Dies erinnert an die Fortschritte, die in der KI-Forschung gemacht werden, wie etwa die 90 Prozent Befolgung von Anweisungen, bei denen Google Audiomodelle optimiert.
Funktionsweise von Agentic Vision
Die Arbeitsweise des Modells basiert auf einem sogenannten Think-Act-Observe-Loop. Zunächst analysiert das Modell die Anfrage sowie das Bild und entwickelt einen Plan. Anschließend generiert und führt es Python-Code aus, um beispielsweise Bilder zuzuschneiden, zu rotieren oder zu annotieren. Die Ergebnisse werden in das Kontextfenster integriert, sodass das Modell die neuen Informationen überprüfen kann, bevor es eine Antwort gibt. Google berichtet, dass die Ausführung des Codes eine Qualitätssteigerung von 5 bis 10 Prozent bei verschiedenen Vision-Benchmarks erzielt. Diese Effizienz könnte auch mit den Methoden verglichen werden, die in der Frage behandelt werden, wie Claude Code in einer Stunde Ergebnisse liefern kann, die Google ein Jahr kosteten.
Zusätzlich wird die Entwicklung von KI-Gedächtnismodellen immer relevanter, um Informationsverluste zu minimieren. Ein Beispiel dafür ist das Forschungsteam, das ein neues KI-Gedächtnis präsentiert.