Neue Studie zur Recherchefähigkeit von KI-Suchagenten
Eine aktuelle Untersuchung deutet darauf hin, dass führende KI-Suchagenten bei etablierten Benchmarks nicht tatsächlich recherchieren, sondern hauptsächlich das Internet nutzen, um bereits vorhandene Antworten zu verifizieren. Wenn diese Modelle jedoch ihre Wissensgrenzen überschreiten müssen, sinkt ihre Suchleistung erheblich.
Moderne Frontier-Modelle wie GPT-5.4, Gemini 3.1 Pro, Claude Sonnet 4.6, DeepSeek-V4-Pro und Kimi-K2.6 erzielen auf der Plattform BrowseComp zunehmend hohe Punktzahlen. Dieser Benchmark stellt den Agenten komplexe Fragen, deren Antworten nur durch mehrstufiges Browsen und das Kombinieren von Informationen aus unterschiedlichen Webquellen ermittelt werden können.
Ergebnisse der Studie
Wissenschaftler des Harbin Institute of Technology und von Xiaohongshu haben in ihrer Studie festgestellt, dass die Ergebnisse weniger über die tatsächliche Recherchefähigkeit der Agenten aussagen, als bislang angenommen. Die Autoren bezeichnen dies als „Intrinsic Knowledge Dependence“ (IKD), was auf eine Abhängigkeit von dem internen Wissen hinweist, das die Modelle während ihrer Trainingsphase erlernt haben. Interessanterweise zeigt eine Studie, dass Nutzer KI-Chatbots bevorzugen, die schädliches Verhalten bestätigen.
Bei statischen Benchmarks wird das erforderliche Wissen über verschiedene Modellgenerationen hinweg im Parametergedächtnis gespeichert, was die Aufgaben an Schwierigkeit verringert. Das LiveBrowseComp-Format versucht, dem entgegenzuwirken, indem es zeitgebundene Fragen stellt.
In einem ersten Diagnoseschritt testeten die Forscher insgesamt elf Modelle und schalteten alle Such- und Browsing-Werkzeuge ab. Trotz des fehlenden Internetzugangs erzielten die Modelle bemerkenswert hohe Ergebnisse. So löste MiniMax M2.5 44,5 Prozent der BrowseComp-Aufgaben aus dem Gedächtnis, während Kimi K2.6 auf der chinesischen Variante BrowseComp-ZH 62 Prozent erreichte. Ein erheblicher Teil der Benchmark-Leistung ist demnach bereits abrufbar, bevor eine Suche überhaupt stattfindet. Zudem wird untersucht, wie Google KI-Agenten beim Online-Shopping unterstützt.
„`
Quellen: the-decoder
Bildquelle: KI generiert