Google DeepMind hat ein innovatives KI-Modell vorgestellt, das erstmals in der Lage ist, grafische Benutzeroberflächen von Web-Browsern und Mobile-Apps vollkommen autonom zu steuern. Mit dem neuen Gemini 2.5 Computer Use Modell ebnet Google den Weg für automatisierte Interaktionen und eröffnet Entwicklern und Unternehmen vielfältige Anwendungsoptionen.
Wichtigste Erkenntnisse
- Gemini 2.5 Computer Use Modell kann eigenständig mit Web- und Mobile-Interfaces interagieren.
- Zugriff ist über die Gemini API möglich, das Modell befindet sich aktuell in der Preview-Phase.
- Optimiert für Web-Browser, experimentell auch für Mobile-Anwendungen einsetzbar.
- Sicherheitsmechanismen verhindern ungewollte oder gefährliche Aktionen.
Funktionsweise des neuen Modells
Das Modell arbeitet in einem interaktiven Loop: Es erhält einen Screenshot der aktuellen Benutzeroberfläche, eine Nutzeranfrage sowie die Historie vorangegangener Aktionen. Daraus generiert es passende UI-Handlungen wie Klicken, Tippen oder Scrollen. Nach jeder Aktion wird ein aktualisierter Screenshot gemacht, sodass das Modell kontinuierlich auf Veränderungen reagieren kann.
Entwickler können sich per Gemini API direkt mit dem System verbinden und eigene KI-Agenten aufbauen. Die primäre Ausrichtung liegt derzeit auf Web-Browsern; auf Mobilgeräten funktioniert das Modell laut Google ebenfalls, wenn auch noch mit Einschränkungen. Für Desktop-Betriebssysteme ist die Technologie noch nicht vorgesehen.
Leistungsfähigkeit und Benchmarks
Laut Google übertrifft Gemini 2.5 in verschiedenen branchenspezifischen Benchmarks wie Online-Mind2Web, WebVoyager und AndroidWorld bisherige Alternativen. Interne Tests zeigen eine Genauigkeit (Accuracy) von über 70 Prozent mit einer Latenzzeit von circa 225 Sekunden pro Ausführung. Diese Ergebnisse wurden sowohl von Google selbst als auch in Zusammenarbeit mit Browserbase evaluiert.
Sicherheit und verantwortungsvoller Einsatz
Google adressiert drei zentrale Risiken: absichtlichen Missbrauch durch Nutzer, unvorhersehbares Verhalten der KI sowie sogenannte Prompt Injections. Eingebaute Sicherheitsfunktionen bremsen kritische Aktionen aus. Ein spezieller Service überprüft jede Aktion des Modells, bevor sie ausgeführt wird. Systemanweisungen ermöglichen Entwicklern, sensible Vorgänge wie das Umgehen von CAPTCHAs oder medizinischen Geräten zu blockieren bzw. eine Nutzerbestätigung einzufordern.
Anwendungen und Zugang
Im praktischen Einsatz nutzt Google das Modell bereits unter anderem beim UI-Testing, für Project Mariner, den Firebase Testing Agent sowie im AI Mode in der Google-Suche. Der Zugang für Entwickler erfolgt über Google AI Studio und Vertex AI. Außerdem gibt es eine Online-Demo, die von Browserbase gehostet wird.
Mit diesem Modell positioniert sich Google erneut an der Spitze der KI-basierten Interaktionssysteme und setzt neue Maßstäbe für die Automatisierung von Web- und App-Anwendungen.