Gehirn mit flackernden neuronalen Verbindungen

KI-Sprachmodelle im Medizin-Check: Kleine Änderungen, große Aussetzer

Eine aktuelle Studie hat die medizinischen Fähigkeiten großer Sprachmodelle (LLMs) unter die Lupe genommen. Die Ergebnisse zeigen, dass selbst minimale Anpassungen bei Testfragen die Leistung der Modelle drastisch verschlechtern. Dies wirft grundlegende Fragen zur Zuverlässigkeit und dem potenziellen Einsatz von KI in der klinischen Praxis auf, da die Modelle eher auf Mustererkennung als auf echtes logisches Denken zu setzen scheinen.

Die Studie und ihre Methodik

Forscher um Suhana Bedi analysierten die Leistung von LLMs anhand des MedQA-Benchmarks, einem anerkannten Test für medizinisches Wissen. Sie modifizierten 100 Fragen, indem sie die korrekte Antwort durch die Option "None of the other answers" (NOTA) ersetzten. Diese Änderungen wurden von klinischen Experten überprüft, um sicherzustellen, dass NOTA die einzig richtige Antwort war. Ziel war es zu prüfen, ob die Modelle das medizinische Problem verstehen oder nur auswendig gelernte Antwortmuster reproduzieren.

Leistungseinbrüche bei KI-Modellen

Die Ergebnisse waren ernüchternd: Alle getesteten Modelle zeigten einen signifikanten Leistungsabfall. Herkömmliche LLMs wie Claude 3.5, Gemini 2.0, GPT-4o und LLaMA 3.3 verzeichneten Genauigkeitsverluste von bis zu 38,2 Prozentpunkten. Im Gegensatz dazu erwiesen sich "Reasoning-optimierte" Modelle wie DeepSeek-R1 und o3-mini als vergleichsweise robuster, obwohl auch sie deutliche Leistungseinbußen hinnehmen mussten (8,8 bzw. 16,2 Prozentpunkte weniger Genauigkeit).

Mustererkennung statt logisches Denken

Die Autoren interpretieren diese Ergebnisse als Hinweis darauf, dass aktuelle KI-Modelle primär auf statistische Mustererkennung statt auf echtes logisches Schlussfolgern setzen. Ein System, dessen Genauigkeit bei kleinen Abweichungen von 80 auf 42 Prozent fällt, ist für den anspruchsvollen medizinischen Bereich, wo unerwartete Fälle die Regel sind, kaum geeignet. Die Robustheit und Zuverlässigkeit der Modelle werden dadurch stark in Frage gestellt.

Fazit und Ausblick

Die Studie unterstreicht die Anfälligkeit von Sprachmodellen für kleine Änderungen im Prompt. Auch "Chain-of-thought"-Prompts, die den Denkprozess der KI fördern sollen, konnten die Modelle nicht konsistent zu besseren medizinischen Schlussfolgerungen befähigen. Ob dies bedeutet, dass die Systeme grundsätzlich nicht zu logischen Schlüssen fähig sind oder diese nur noch nicht stabil ausführen können, bleibt offen. Zukünftige, möglicherweise leistungsfähigere Modelle wie GPT-5-Thinking oder Gemini 2.5 Pro könnten hier Verbesserungen zeigen, doch die aktuellen Ergebnisse mahnen zur Vorsicht beim Einsatz von KI in sensiblen Bereichen wie der Medizin.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like