KI-System analysiert Gaming-Strategien in virtuellem Spielumfeld

KI-Revolution im Gaming: Tencent stellt System vor, das Spielstrategien versteht und erklärt

Das chinesische Technologieunternehmen Tencent hat ein neues KI-Framework vorgestellt, das sowohl Spielstrategien erklären als auch praktisch im Videospiel „Honor of Kings“ umsetzen kann. Mit einem innovativen Trainingsverfahren soll damit eine bisherige Lücke zwischen theoretischem Strategieverständnis und konkretem Handeln geschlossen werden.

Wichtigste Erkenntnisse auf einen Blick

  • Tencents neues Framework heißt "Think in Games" (TiG)
  • Ziel: Kombination von strategischer Erklärung und praktischer Umsetzung in Echtzeit
  • Kleinere KI-Modelle übertreffen zum Teil größere Systeme
  • Der Trainingsansatz könnte nicht nur in Spielen, sondern auch in anderen Bereichen Anwendung finden

Neues Framework: Zwischen Wissen und Handeln vermitteln

Bei bisherigen KI-Systemen bestand eine entscheidende Hürde: Sprachmodelle konnten Strategien analysieren und erklären, scheiterten aber meist an deren praktischen Ausführung. Klassische Agenten hingegen konnten handeln, ohne ihre Entscheidungen transparent zu machen. TiG verbindet nun beide Welten durch ein zweistufiges Lernverfahren und datenbasiertes Training in der komplexen Spielumgebung „Honor of Kings“.

Trainingsdaten aus echten Matches

Für das Framework wurde das Spielgeschehen durch echte, anonymisierte Partien gespeist. Die Entwickler:innen definierten 40 verschiedene Makro-Aktionen (z.B. "Lane angreifen", "Drachen sichern"), sodass die KI in jeder Situation optimale Strategien auswählen und diese auch begründen kann. Das Training fand in zwei Phasen statt: Zuerst standardisiertes Lernen der Grundmechaniken, dann Feinschliff mittels Verstärkungslernen über ein Belohnungssystem.

Kleine Modelle mit großer Wirkung

Verschiedene Sprachmodelle wurden getestet, etwa Qwen2.5 und Qwen3 in unterschiedlichen Größen sowie als Vergleich das größere Deepseek-R1. Das bemerkenswerte Ergebnis: Kleinere Modelle, die mit innovativen Trainingsmethoden wie Group Relative Policy Optimization (GRPO) weiterentwickelt wurden, erreichten teilweise bessere Vorhersage- und Erklärungsquoten als das größere Deepseek-R1. So erzielte das Qwen3-14B-Modell knapp 91 % korrekte strategische Entscheidungen.

Übersicht der Ergebnisse

Modell Korrekte Entscheidungen (in %)
Qwen3-14B 90,91
Deepseek-R1 86,67
Qwen2.5-32B 86,84 (nach GRPO)
Qwen2.5-14B 83,12 (nach GRPO)

Praktische Erklärungen und weitere Fähigkeiten

Die trainierten KI-Systeme sind nicht nur leistungsstark, sondern auch transparent: Sie können ihre Entscheidungen nachvollziehbar erläutern – etwa das Identifizieren eines schwachen Turms als Angriffsziel inklusive Warnung vor gegnerischen Hinterhalten. Außerdem bleiben andere Fähigkeiten wie Textverständnis oder Problemlösung in Mathematik erhalten.

Perspektiven über das Gaming hinaus

Tencents Ansatz zeigt: Strategisches Denken, begründete Entscheidungen und praktische Umsetzung müssen kein Widerspruch mehr sein. Die Forschenden prognostizieren Anwendungsfelder jenseits der Spielewelt, etwa in Bereichen, in denen komplexe Aufgaben und Erklärbarkeit zentrale Rollen spielen. Grenzen sieht das Team jedoch bei der Übertragbarkeit auf weniger strukturierte Szenarien.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like