Google hat mit der Einführung des neuen Gemini 2.5 Computer Use Modells einen bedeutenden Schritt in Richtung autonom gesteuerter Browser und mobiler Apps gemacht. Die innovative KI kann Benutzeroberflächen eigenständig bedienen und soll so zahlreiche Anwendungsbereiche revolutionieren.
Wichtigste Erkenntnisse
- Das KI-Modell kann eigenständig in Web- und Mobile-Interfaces navigieren
- Optimiert für Browser-Steuerung, aber auch mit mobilen Apps kompatibel
- Automatisierte Interaktion auf Basis von Screenshots, Nutzereingaben und Aktionen
- Sicherheitssysteme verhindern Missbrauch und ungeplantes Verhalten
- Über 70 % Trefferquote und etwa 225 Sekunden Latenz in internen Tests
Wie das neue KI-Modell funktioniert
Das Gemini 2.5-Modell arbeitet in einem geschlossenen Regelkreis: Es erhält einen Screenshot der aktuellen Benutzeroberfläche, eine Nutzeranfrage sowie den Verlauf bisheriger Aktionen. Anhand dieser Daten erzeugt die KI UI-Aktionen wie Klicken, Tippen oder Scrollen. Nach der Ausführung wird ein aktualisierter Screenshot analysiert, um den nächsten Schritt einzuleiten. Dieser Prozess wiederholt sich kontinuierlich, bis das Ziel erreicht ist.
Für Entwickler ist das Modell bereits als Vorschau über die Gemini API zugänglich. Damit können Agenten erstellt werden, die eigenständig Nutzeroberflächen bedienen—vor allem im Web-Browser, aber auch in mobilen Anwendungen. Für die Steuerung kompletter Desktop-Betriebssysteme sei der Ansatz laut Google allerdings noch nicht ausgereift.
Benchmarks und Anwendungsfelder
Laut Google konnte das Modell bei Benchmarks wie Online-Mind2Web, WebVoyager und AndroidWorld Konkurrenten deutlich übertreffen. Die interne Messung ergab dabei eine Trefferquote von über 70 % und eine Latenz von etwa 225 Sekunden pro Aufgabe.
Das Unternehmen setzt das Modell bereits in verschiedenen Bereichen ein, etwa beim automatisierten UI-Testing, im Project Mariner, bei Google Firebase Testing Agenten sowie im neuen AI Mode der Google-Suche. Entwickler können das Modell über Google AI Studio, Vertex AI und eine Demo-Umgebung von Browserbase testen.
Sicherheit und Kontrolle: Missbrauch wird vorgebeugt
Bei der Entwicklung des KI-Modells stand die Sicherheit im Fokus. Drei Hauptgefahren werden adressiert: absichtlicher Missbrauch, unerwartetes Verhalten und Prompt-Injektionen. Google hat dafür umfangreiche Sicherheitssysteme integriert. Ein sogenannter Per-Step Safety Service überprüft jede von der KI vorgeschlagene Aktion, bevor sie ausgeführt wird.
Entwickler haben zusätzlich die Möglichkeit, über Systemanweisungen sensible Aktionen wie das Umgehen von CAPTCHAs oder die Steuerung medizinischer Geräte auszuschließen oder eine Nutzerbestätigung zu verlangen. Durch diese Maßnahmen sollen potenzielle Risiken minimiert werden.
Ausblick: Zukünftige Möglichkeiten
Die Einführung des Gemini 2.5 Computer Use Modells könnte nicht nur die Interaktion mit digitalen Interfaces transformieren, sondern auch neue Wege für die Automatisierung und das Testen von Anwendungen eröffnen. Besonders für Unternehmen und Entwickler eröffnen sich damit innovative Möglichkeiten, KI-basierte Lösungen in den Alltag zu integrieren.