Deepmind hat zusammen mit US-Forschern den sogenannten "Vibe Checker" vorgestellt – ein neues Bewertungsverfahren für KI-generierten Code, das menschliche Präferenzen besser abbilden soll als bisherige Benchmarks. Die Entwicklung reagiert auf massive Kritik an etablierten Testmethoden, welche kaum berücksichtigen, wie Nutzer tatsächlich die Codequalität beurteilen.
Wichtigste Erkenntnisse
- Aktuelle Benchmarks bewerten KI-Code oftmals nicht realitätsnah.
- Der Vibe Checker kombiniert funktionale Tests und überprüft die Einhaltung detaillierter Coding-Anweisungen.
- Eine neue Taxonomie (VeriCode) erlaubt flexible und skalierbare Qualitätsprüfungen auch für komplexe Vorgaben.
- Menschliche Präferenzen bei der Codeauswahl korrelieren am stärksten mit einer Mischung aus Funktionalität und Regel-Konformität.
- Das Tool deckt Schwächen moderner KI-Sprachmodelle auf, insbesondere bei der gleichzeitigen Befolgung mehrerer Anforderungen.
Wo klassiche Benchmarks für KI-Code versagen
Viele aktuelle Messverfahren wie sogenannten pass@k-Metriken konzentrieren sich fast ausschließlich darauf, ob KI-generierte Programme simple Funktionstests bestehen. Nicht-funktionale Aspekte, wie Coding-Style, Dokumentation oder Fehlerbehandlung, werden jedoch oft übersehen. Genau diese Aspekte spielen für echte Entwickler eine wichtige Rolle beim Einsatz von KI-Code in der Praxis.
Die VeriCode-Taxonomie als neues Bewertungsfundament
Deepminds Team entwickelte gemeinsam mit US-Universitäten die VeriCode-Taxonomie: 30 überprüfbare Code-Anweisungen aus fünf Kernkategorien wie Coding-Konventionen, Dokumentation oder API-Verwendung. Diese Regeln lassen sich durch zahlreiche Parameter flexibel auf eine Vielzahl an Anwendungsfällen anpassen und erweitern die Möglichkeiten der Qualitätskontrolle enorm. Beispielsweise kann die erlaubte Zeilenlänge oder das maximale Verschachtelungsniveau variiert werden.
Wie der Vibe Checker den Unterschied macht
Basierend auf VeriCode führt der Vibe Checker die Qualitätsprüfung von KI-Code wesentlich differenzierter durch. Statt nur funktionale Richtigkeit zu testen, prüft das System zudem, ob der Code den vorgegebenen Anweisungen (Instruction Following) folgt. Evaluierungen zeigen: Die meisten getesteten Sprachmodelle erreichen nur dann hohe Erfolgsraten, wenn sie maximal zwei Vorgaben gleichzeitig berücksichtigen müssen. Bei mehr Anweisungen sinkt die Erfolgsquote unter die 50-Prozent-Marke.
| Anweisungen gleichzeitig | Erfolgsrate (Durchschnitt) | Erfolgsrate (Beste Modelle) |
|---|---|---|
| 3 | unter 50 % | ca. 47 % |
| 5 | ca. 41 % |
Zudem ist feststellbar, dass mittlere Anweisungen („Lost-in-the-Middle“) von KI-Modellen häufiger ignoriert werden. Auch zeigt sich, dass je nach Anwendungskontext – praktischer Einsatz oder Algorithmuswettbewerb – die Gewichtung von Funktionalität versus Regelbefolgung wichtig ist.
Neue Richtung für die Entwicklung von KI-Assistenzsystemen
Die Studie bestätigt: Die Berücksichtigung verifizierbarer Anweisungen und klar messbarer Konventionen ist ein entscheidender Schritt zu einer Bewertung, die den tatsächlichen Präferenzen und Bedürfnissen menschlicher Entwickler entspricht. Deepmind und das Forschungsteam planen die Veröffentlichung ihrer Taxonomie und Prüf-Tools, um nachhaltige Verbesserungen bei der Weiterentwicklung von KI-Programmierhilfen zu ermöglichen.
Die Ergebnisse setzen einen neuen Standard für KI-Bewertung – ein wichtiger Schritt, damit Programmierassistenten nicht nur schneller, sondern auch wirklich hilfreicher werden.