Das französische Start-up Foaster.ai hat die sozialen Fähigkeiten großer Sprachmodelle in einem neuen Benchmark getestet. In 210 Partien des Gesellschaftsspiels "Werwolf" zeigte GPT-5 von OpenAI überlegene Leistungen bei Manipulation und strategischem Verhalten, was seine fortschrittlichen sozialen Intelligenzfähigkeiten unterstreicht.
Key Takeaways
- GPT-5 dominierte das "Werwolf"-Spiel mit einer Gewinnrate von 96,7 Prozent und einer konstanten Manipulationsquote von 93 Prozent.
- Das Spiel "Werwolf" wurde gewählt, da es komplexe soziale Täuschungsszenarien mit logischem Argumentieren, Bluffen und Manipulation erfordert.
- Andere Modelle wie Gemini 2.5 Pro zeigten ebenfalls gute Leistungen, konnten aber die Täuschungsfähigkeiten von GPT-5 nicht erreichen.
- Die Studie deutet darauf hin, dass Modellgröße nicht immer linear mit strategischer und sozialer Intelligenz korreliert.
Der "Werwolf"-Benchmark
Das Spiel "Werwolf" wurde als Testumgebung gewählt, da es ein komplexes soziales Täuschungsszenario darstellt, das Fähigkeiten wie logisches Argumentieren, Bluffen, gezielte Manipulation und Anpassung an unsichere Situationen erfordert. Diese Aspekte werden in klassischen KI-Benchmarks bisher kaum abgebildet.
Das Ziel des Benchmarks war es, die Fähigkeit von Sprachmodellen zu bewerten, in dynamischen, interaktiven Umgebungen situationsangepasst zu agieren. Neben Faktenwissen und mathematischem Denken stand die soziale Intelligenz im Vordergrund.
Spielablauf und Ergebnisse
Sechs KI-Modelle übernahmen verschiedene Rollen in "Werwolf", darunter Werwölfe und Dorfbewohner mit Spezialrollen. Nach der Wahl eines Bürgermeisters folgten diskussionsbasierte Tagphasen und verdeckte Nachtphasen. Jedes Modellpaar spielte zehn Partien pro Rolle, und die Auswertung erfolgte über separate Elo-Ranglisten.
GPT-5 erreichte 1492 Elo-Punkte und eine Gewinnrate von 96,7 Prozent. Als Werwolf hielt es eine konstante Manipulationsquote von 93 Prozent über beide Spieltage hinweg. Kein anderes Modell konnte eine vergleichbare Täuschungsleistung über den Spielverlauf aufrechterhalten.
Gemini 2.5 Pro von Google belegte mit 1261 Elo-Punkten und 63,3 Prozent Gewinnrate den zweiten Platz, wobei es in der Rolle des Dorfbewohners mit disziplinierter Argumentation und effektiver Selbstverteidigung überzeugte. Weitere Modelle wie Gemini 2.5 Flash, Qwen3-235B-Instruct, GPT-5-mini und Kimi-K2-Instruct folgten mit Abstand. GPT-oss-120B bildete mit 980 Elo-Punkten und nur 15 Prozent Gewinnrate das Schlusslicht.
Beobachtete Verhaltensweisen und Implikationen
Foaster.ai beobachtete, dass jedes Modell einen eigenen, erkennbaren Spielstil entwickelte. GPT-5 agierte als "ruhiger Architekt", während andere Modelle wie Kimi-K2 als impulsive Risikospieler auffielen. Es gab auch spontane Kreativität, wie das strategische Opfern eines Werwolf-Partners, um glaubwürdiger zu erscheinen.
Die Studie zeigte, dass leistungsstärkere Modelle nicht nur bessere Argumente liefern, sondern auch strategischer und sozial intelligenter agieren können. Allerdings war die Verbesserung nicht immer linear, und schwächere Modelle spielten oft unkoordiniert, während stärkere klare Strategien entwickelten.
Mit dem "Werewolf"-Benchmark will Foaster.ai die Forschung an sozialer Intelligenz in KI-Systemen vorantreiben. Anwendungsbereiche liegen in Multi-Agenten-Systemen, Verhandlungen oder kooperativen Entscheidungsprozessen. Die Ergebnisse deuten darauf hin, dass KI-Modelle zunehmend als soziale Akteure auftreten können, mit allen damit verbundenen Chancen und Risiken.