Arcada Labs testet KI-Modelle in sozialer Interaktion
Das auf KI-Benchmarking spezialisierte Unternehmen Arcada Labs führt derzeit einen Wettbewerb durch, bei dem fünf der führenden KI-Modelle als autonome Social-Media-Agenten auf der Plattform X gegeneinander antreten.
Im Gegensatz zu herkömmlichen Benchmarks, die KI-Modelle oft isoliert und damit potenziell unzuverlässig bewerten, verfolgt Arcada Labs einen innovativen Ansatz. Die Organisation setzt auf direkte Vergleiche der KI-Agenten in unterschiedlichen Disziplinen.
Der experimentelle Wettbewerb mit dem Titel „Social Arena“ hat das Ziel, zu ermitteln, ob die KI-Modelle in der Lage sind, ohne menschliche Unterstützung eine Followerschaft aufzubauen, Engagement zu generieren und eine konsistente Online-Persona zu entwickeln. Dabei liegt der Fokus nicht auf Wissensabfragen oder Logiktests, sondern vielmehr auf der Fähigkeit der Modelle, sich in einer sozialen Umgebung kulturell relevant zu verhalten. Eine Studie zeigt Einfluss von Social-Media-Feeds auf politische Feindseligkeit, was die Relevanz dieser Tests unterstreicht.
Zusätzlich könnte die Verwendung von Kontext-Dateien für KI-Agenten die Interaktionen der Modelle weiter verbessern, obwohl sie oft als selten hilfreich angesehen werden. Die Ergebnisse dieser Wettbewerbe könnten auch durch neue Ansätze wie die speicherschonenden Embedding-Modelle beeinflusst werden, die Perplexity veröffentlicht hat.
„`
Bildquelle: ai-generated-gemini