Eine aktuelle Studie von Forschenden der Ruhr-Universität Bochum und des Max-Planck-Instituts für Softwaresysteme enthüllt signifikante Unterschiede in der Art und Weise, wie traditionelle Suchmaschinen wie Google und generative KI-Systeme Informationen suchen und präsentieren. Die Analyse verglich Googles organische Suche mit vier KI-gestützten Systemen, darunter Google AI Overview, Gemini und GPT-4o, über mehr als 4.600 Suchanfragen hinweg.
Kernunterschiede in der Informationsbeschaffung
- KI-Systeme und Google verfolgen grundlegend verschiedene Ansätze bei der Quellenauswahl und der Darstellung von Inhalten.
- Die Wahl, ob eine Websuche durchgeführt wird oder ob die Antwort aus dem internen Wissen des Modells stammt, variiert stark zwischen den untersuchten KI-Systemen.
Vielfalt der Quellen und Recherchetiefe
Die Studie zeigt, dass KI-Systeme oft auf andere Quellen zurückgreifen als Googles organische Suche. Bis zu 53 Prozent der von Google AI Overview konsultierten Websites finden sich nicht unter den Top 10 der organischen Suchergebnisse. Generell tendieren KI-Systeme dazu, weniger bekannte Websites zu nutzen, wobei nur etwa 34-35 Prozent der konsultierten Domains zu den Top-1000 der meistbesuchten Websites gehören, im Vergleich zu 38 Prozent bei Googles organischer Suche.
Ein weiterer bemerkenswerter Unterschied liegt in der Recherchetiefe. Während GPT-Tool im Durchschnitt nur 0,4 Webseiten pro Anfrage konsultiert und sich stark auf internes Wissen verlässt, greifen AI Overview und Gemini auf durchschnittlich 8,6 bzw. 8,5 Webseiten zu. GPT-Search liegt mit 4,1 Seiten dazwischen.
Leistung bei aktuellen und mehrdeutigen Anfragen
Bei aktuellen, zeitkritischen Anfragen zeigen sich deutliche Schwächen bei Systemen, die primär auf internem Wissen basieren. Ein Beispiel ist die falsche Information über den noch lebenden Boxer Ricky Hatton durch GPT-Tool. Bei solchen Anfragen erzielte GPT-Search mit 72 Prozent die beste Themenabdeckung, gefolgt von der organischen Suche (67 Prozent) und Gemini (66 Prozent).
Bei mehrdeutigen Anfragen, die verschiedene Interpretationen zulassen, schneidet die organische Suche besser ab und erreicht eine durchschnittliche Abdeckung von 60 Prozent, während AI Overview 51 Prozent und GPT-Tool nur 47 Prozent erreichen.
Zuverlässigkeit und zukünftige Herausforderungen
Die Zuverlässigkeit der Systeme bei wiederholten Anfragen variiert stark. Googles organische Suche erwies sich als am verlässlichsten, mit identischen Quellen bei 45 Prozent der Anfragen. AI Overview zeigte sich mit nur 18 Prozent Übereinstimmung als sehr unberechenbar, was bedeutet, dass dieselbe Frage zu unterschiedlichen Zeiten zu völlig anderen Quellen führen kann, obwohl die allgemeine Themenabdeckung stabil bleibt.
Die Forschenden betonen die Notwendigkeit neuer Bewertungsmaßstäbe für Suchsysteme, die die Quellenvielfalt, inhaltliche Abdeckung und die Art der Informationszusammenfassung berücksichtigen. Die subtilen Unterschiede in der Quellenauswahl und Wissensnutzung können die Perspektiven und Fakten, denen Nutzer ausgesetzt sind, maßgeblich beeinflussen und haben Auswirkungen auf Transparenz und Vertrauen.