Ein Forschungsteam hat einen innovativen Web-Agenten namens MolmoWeb entwickelt, der in der Lage ist, Webseiten ausschließlich anhand von Bildschirmfotos zu bedienen. Diese kompakten Modelle zeigen in einigen Bereichen eine überlegene Leistung im Vergleich zu größeren, proprietären Systemen.
Aktuell sind Nutzer, die einen KI-Agenten benötigen, der selbstständig im Internet nach Flügen sucht, Formulare ausfüllt oder Produktlisten analysiert, auf geschlossene Systeme angewiesen. Die fortschrittlichsten Web-Agenten stammen von Unternehmen, die weder ihre Trainingsdaten noch die verwendeten Methoden offenlegen. Meta kauft das soziale Netzwerk für KI-Agenten Moltbook und holt die Gründer in sein Superintelligence Lab.
Das Allen Institute for AI (AI2) möchte diese Situation verändern und hat MolmoWeb als vollständig offenen Web-Agenten veröffentlicht. Dieser steht in zwei Varianten mit 4 und 8 Milliarden Parametern zur Verfügung und wird zusammen mit sämtlichen Trainingsdaten, Modellgewichten und Evaluierungswerkzeugen bereitgestellt. Zudem wird diskutiert, warum KI-Agenten bestehende Software nutzen werden und nicht ersetzen.
In naher Zukunft könnte ein weiteres KI-Tool, OpenClaw, für Furore sorgen und die Möglichkeiten der KI-Agenten erweitern.
„`
Bildquelle: ai-generated-gemini