KI News

Studie zeigt: Multimodale KI-Modelle bitten selten um Hilfe bei fehlenden visuellen Informationen

2 min Lesezeit
Studie zeigt: Multimodale KI-Modelle bitten selten um Hilfe bei fehlenden visuellen Informationen

ProactiveBench untersucht, ob multimodale Sprachmodelle in der Lage sind, bei unzureichenden visuellen Informationen aktiv um Unterstützung zu bitten. Die Analyse von 22 getesteten Modellen zeigt, dass diese kaum proaktives Verhalten zeigen. Ein einfaches Training mit Reinforcement Learning könnte jedoch einen möglichen Lösungsansatz bieten.

Wenn Menschen ein verdecktes Objekt identifizieren müssen, fragen sie oft jemanden, das Hindernis zu entfernen. Im Gegensatz dazu agieren multimodale Sprachmodelle nicht so. Stattdessen neigen sie dazu, falsche Antworten zu generieren oder sich ganz zu weigern, eine Aussage zu treffen. Der neue Benchmark ProactiveBench untersucht systematisch, ob aktuelle KI-Modelle in der Lage sind, in solchen Situationen gezielt um Hilfe zu bitten. Eine ähnliche Problematik wird auch in der Studie über KI-Chatbots behandelt, die schädliches Verhalten bestätigen.

Reaktive Modelle neigen dazu, falsche Antworten zu halluzinieren oder sich zu enthalten. Ein proaktives Modell hingegen würde darum bitten, die Blockade zu beseitigen, um anschließend korrekt antworten zu können. Der Benchmark verwendet sieben bestehende Datensätze und wandelt diese in Testszenarien um, die ohne menschliche Unterstützung nicht lösbar sind. Die Modelle sollen beispielsweise verdeckte Objekte identifizieren, verrauschte Bilder verbessern, grobe Skizzen interpretieren oder Kamerawinkel anpassen. Insgesamt umfasst ProactiveBench mehr als 108.000 Bilder in 18.000 Proben. Ein Filtermechanismus entfernt Aufgaben, die die Modelle bereits im ersten Versuch lösen können. Um erfolgreich zu sein, müssen die Modelle proaktiv nach zusätzlichen Informationen fragen. Dies erinnert an die Entwicklungen, die in dem Artikel über Virtuelle Agenten beschrieben werden, die Akrobatik lernen.

Vielfältige Testszenarien im ProactiveBench

ProactiveBench umfasst sieben verschiedene Szenarien: verdeckte Objekte (ROD, VSOD), uninformative Blickwinkel (MVP-N), verrauschte Bilder (ImageNet-C), Skizzen (QuickDraw), zeitliche Mehrdeutigkeiten (ChangeIt) und Kamerabewegungen (MS-COCO). Proaktive Modelle sind in der Lage, nach Hilfe zu fragen, während reaktive Modelle entweder halluzinieren oder sich enthalten.

Leistung der Modelle im Vergleich

Die Forscher haben laut den veröffentlichten Ergebnissen 22 multimodale Sprachmodelle evaluiert, darunter LLaVA-OV, Qwen2.5-VL, InternVL3 sowie GPT-4.1, GPT-5.2 und o4-mini. Im Referenz-Setting, in dem die Objekte eindeutig sichtbar sind, lösen die Modelle durchschnittlich 79,8 Prozent der Aufgaben. Im ProactiveBench fällt die Leistung jedoch um mehr als 60 Prozent im Vergleich zum Referenz-Setting. Ein weiterer interessanter Aspekt ist die Entwicklung von Trainingsdatensätzen, wie sie in dem Artikel über OpenAI beschrieben wird, um die Leistung zu verbessern.

Mehr zum Thema


„`

Bildquelle: ai-generated-gemini

KI Snack