Während herkömmliche Reinforcement-Learning-Algorithmen in der Regel mit zwei bis fünf Netzwerkschichten arbeiten, hat ein Forscherteam die Effizienz eines selbstüberwachten Agenten um das 2- bis 50-Fache gesteigert, indem es die Netzwerktiefe auf bis zu 1024 Schichten erhöht hat. Dies führt zu neuartigen Verhaltensweisen.
In den Bereichen Sprach- und Bildverarbeitung haben größere Modelle bereits zu bedeutenden Fortschritten geführt. Im Bereich des Reinforcement Learning (RL), wo KI-Agenten durch Versuch und Irrtum lernen, blieb jedoch ein ähnlicher Skalierungseffekt bislang aus, wie ein Team von Wissenschaftlern der Princeton University und der Warsaw University of Technology feststellt. Die meisten RL-Systeme verwenden lediglich zwei bis fünf Netzwerkschichten, während Sprachmodelle wie Llama 3 Hunderte von Schichten nutzen. Ein Beispiel für die Herausforderungen im Bereich der KI zeigt, dass ein KI-Agent sich in nur einer Stunde in eine Recruiting-Plattform gehackt haben soll.
Die Forscher demonstrieren nun, dass eine erhöhte Netzwerktiefe die Leistung je nach spezifischer Aufgabe um das 2- bis 50-Fache verbessern kann. Bei besonders herausfordernden Aufgaben, wie dem Durchqueren eines Labyrinths durch eine humanoide Figur, testeten die Wissenschaftler das System sogar mit bis zu 1024 Schichten. Der entscheidende Faktor ist ein Algorithmus namens Contrastive RL (CRL), der mehrere Prinzipien erfolgreicher Sprachmodell-Skalierungen auf das Reinforcement Learning überträgt. Dies wird durch die Bestrebungen von OpenAI unterstützt, die ihre Trainingsdatensätze kontinuierlich verbessern möchten. Zudem zeigt die Übernahme von Meta, wie wichtig die Entwicklung von KI-Agenten für die Zukunft ist.
„`
Bildquelle: ai-generated-gemini