Forschende haben herausgefunden, dass die gängigen Ranking-Plattformen für große Sprachmodelle (LLMs) überraschend anfällig sind. Bereits das Entfernen von lediglich 0,003 Prozent der Nutzerbewertungen kann ausreichen, um die Position eines Modells in einer Rangliste erheblich zu verändern.
Einfluss von Crowdsourcing-Rankings
Plattformen wie Arena, die früher als LMArena oder Chatbot Arena bekannt waren, bieten im Gegensatz zu standardisierten Benchmarks einen Einblick, wie Sprachmodelle im direkten Austausch mit echten Nutzern abschneiden. Die durch Crowdsourcing erstellten Präferenz-Rankings haben in der Branche eine bedeutende Rolle eingenommen: Nutzer nutzen sie, um die tatsächliche Hilfsbereitschaft eines LLMs zu bewerten, während Unternehmen diese Platzierungen zur Vermarktung ihrer Modelle heranziehen. Ein Beispiel für die Erfolge in diesem Bereich ist, wie Deepseek Erfolge seines KI-Modells bei Mathematik-Olympiade präsentiert.
Instabilität der Rankings
Eine Studie von Forschenden des MIT und IBM Research zeigt jedoch, dass diese Rankings äußerst instabil sind. Es genügt, lediglich zwei Bewertungen aus einer Gesamtzahl von 57.477 zu entfernen, um das am besten platzierte Modell zu verändern. Diese Erkenntnisse sind besonders relevant in Anbetracht der entscheidenden AI-Entwicklungen des Jahres 2025, die die Branche weiter beeinflussen könnten. Zudem zeigt eine aktuelle Analyse, dass 90 Prozent Befolgung von Anweisungen: Google optimiert Audiomodelle.