Microsoft hat mit Fara-7B ein kompaktes KI-Modell vorgestellt, das die Bedienung von Benutzeroberflächen rein visuell ermöglichen soll. Trotz seiner geringen Größe verspricht das Modell, mit deutlich komplexeren Systemen konkurrieren zu können, und läuft lokal auf Endgeräten.
Das Modell basiert auf Alibabas Qwen2.5-VL-7B und verwendet laut Microsoft ausschließlich visuelle Informationen. Es verarbeitet Screenshots der Benutzeroberfläche, ohne auf technische Hilfsmittel wie Accessibility Trees oder HTML-Parsing angewiesen zu sein. In einem Prozess aus Beobachten, Denken und Handeln sagt das Modell Koordinaten für Klicks voraus oder generiert Tastatureingaben, wobei es den Verlauf der Aktionen, die letzten drei Screenshots und die Nutzereingaben berücksichtigt.
Mit sieben Milliarden Parametern ist Fara-7B klein genug, um direkt auf Geräten ausgeführt zu werden. Microsoft hebt hervor, dass dies die Latenz verringert und den Datenschutz verbessert, da die Daten lokal verbleiben.
Ein zentrales Problem bei der Entwicklung solcher Computer-Use-Agenten ist der Mangel an Trainingsdaten, da die manuelle Aufzeichnung von Klickpfaden durch Menschen äußerst aufwendig ist. Microsoft hat dieses Problem durch eine Pipeline für synthetische Daten umgangen. Das Team nutzte das hauseigene Multi-Agenten-Framework Magentic-One, um Aufgaben automatisiert zu lösen. Ein Orchestrator-Agent erstellt Pläne, während ein WebSurfer-Agent die Aktionen ausführt. Die daraus resultierenden erfolgreichen Abläufe – insgesamt rund 145.000 Trajektorien mit einer Million Einzelschritten – dienten als Trainingsmaterial, um das Wissen des komplexen Systems in das kompakte Fara-7B zu integrieren.
Zusätzlich hat Microsoft den Benchmark WebTailBench eingeführt, der Aufgaben abdecken soll, die in bisherigen Tests unterrepräsentiert waren, wie Preisvergleiche oder Jobsuche.
In den von Microsoft veröffentlichten Benchmarks zeigt das Modell eine hohe Leistungsfähigkeit im Vergleich zu seiner Größe. Im WebVoyager-Benchmark erreicht Fara-7B eine Erfolgsquote von 73,5 Prozent. Damit liegt es laut den Autoren vor dem UI-TARS-1.5-7B Modell und übertrifft sogar OpenAIs kommerzielles GPT-4o. Eine unabhängige Überprüfung durch die Firma Browserbase mit menschlichen Bewertern ergab eine Erfolgsquote von 62 Prozent.
Microsoft betont zudem die Effizienz: Fara-7B benötigt für die Lösung von Aufgaben im Durchschnitt nur etwa 16 Schritte, während vergleichbare Modelle wie UI-TARS rund 41 Schritte benötigen. Dies spiegelt sich direkt in reduzierten Kosten wider.
Trotz der positiven Ergebnisse weist Microsoft darauf hin, dass das Modell weiterhin Fehler machen kann, Anweisungen missverstehen kann und zu Halluzinationen neigt. Um Risiken zu minimieren, wurde das Modell darauf trainiert, an sogenannten kritischen Punkten innezuhalten – beispielsweise vor dem Absenden einer E-Mail oder einer finanziellen Transaktion –, um die Zustimmung des Nutzers einzuholen.
Das Modell steht als experimentelles Open-Weight-Release unter MIT-Lizenz auf Hugging Face und Microsoft Foundry zur Verfügung. Zudem lässt sich Fara-7B lokal auf Copilot+ PCs mit Windows 11 testen. KI-Unternehmen wie OpenAI, Anthropic, Google und Manus AI setzen bereits seit einiger Zeit auf die KI-gestützte Bedienung von Benutzeroberflächen durch Agenten. Bisher zeigt sich jedoch, dass viele Aufgaben ohne echten Effizienzgewinn nur langsam oder gar nicht ausgeführt werden. Zudem besteht das Risiko, durch Prompt-Injections in die Irre geführt zu werden.
Ein möglicher Ansatz könnte sein, KI-Agenten nicht nur auf visuelle Informationen zu beschränken, sondern ihnen Schnittstellen zu bieten, die speziell auf ihre Bedürfnisse zugeschnitten sind. Während Forschende bereits an standardisierten Interaktionskonzepten für Agenten arbeiten, könnten solche Ansätze dazu beitragen, die Effizienz und Sicherheit beim Einsatz von KI-Agenten erheblich zu steigern.