KI News

Optimierung von KI-Architekturen: Deutsches Team erforscht adaptive Denkprozesse

2 min Lesezeit
Optimierung von KI-Architekturen: Deutsches Team erforscht adaptive Denkprozesse

Ein deutsches Forschungsteam hat eine innovative Methode entwickelt, bei der Transformer-Modelle selbstständig entscheiden, wie oft sie über ein Problem nachdenken. Diese Technik, kombiniert mit zusätzlichem Speicher, führt zu Ergebnissen, die deutlich besser sind als die größerer Modelle bei mathematischen Aufgaben. Ein Beispiel für solche Fortschritte ist, wie virtuelle Agenten Akrobatik lernen.

Sprachmodelle nutzen das Chain-of-thought-Prompting, um Schritt für Schritt zu denken. Allerdings erfordert jeder Zwischenschritt zusätzliche Token. Eine alternative Lösung bieten die sogenannten geloopten Transformer: Sie wenden denselben Rechenblock mehrfach auf ihre internen Repräsentationen an, ohne die Zwischenschritte als Text auszugeben. Dies spart Parameter, hat jedoch den Nachteil, dass die Speicherkapazität leidet, da das Modell weniger einzigartige Gewichte hat, um Wissen zu speichern. In diesem Kontext ist auch die Verbesserung der Prompt-Injection-Abwehr durch OpenAI von Bedeutung.

Ein Team vom Lamarr-Institut, Fraunhofer IAIS und der Universität Bonn untersucht in einer aktuellen Studie, ob dieser Zielkonflikt gelöst werden kann. Die Forschenden schlagen eine Architektur vor, die zwei Mechanismen kombiniert. Erstens das adaptive Looping, bei dem jede Transformer-Schicht mithilfe eines gelernten Haltemechanismus selbst entscheidet, wie oft sie ihren Rechenblock wiederholt. Zweitens werden gelernte Speicherbänke eingesetzt, die zusätzliches Wissen bereitstellen. Diese Entwicklungen sind vergleichbar mit den neuen Modellen von OpenAI, die verbesserte Fähigkeiten bieten.

„`

Bildquelle: ai-generated-gemini

KI Snack