Vergleich von Spracherkennungssystemen mit Klangwellen und digitalen Elementen.

Open ASR Leaderboard: Über 60 Spracherkennungssysteme im transparenten Vergleich

Ein internationales Forscherteam hat das Open ASR Leaderboard ins Leben gerufen, eine neuartige Bewertungsplattform, die über 60 automatische Spracherkennungssysteme transparent vergleicht. Entwickelt von Experten von Hugging Face, Nvidia, der University of Cambridge und Mistral AI, zielt die Plattform darauf ab, faire und umfassende Vergleiche zwischen Open-Source- und kommerziellen Modellen zu ermöglichen.

Key Takeaways

  • Das Open ASR Leaderboard bewertet über 60 Spracherkennungssysteme in drei Kategorien: englische Erkennung, mehrsprachige Tests (Deutsch, Französisch, Italienisch, Spanisch, Portugiesisch) und die Verarbeitung längerer Audiodateien.
  • Zwei zentrale Metriken sind die Word Error Rate (WER) für die Genauigkeit und der Inverse Real-Time Factor (RTFx) für die Geschwindigkeit.
  • Die Leistung variiert stark: Große Sprachmodelle sind genauer, aber langsamer, während spezialisierte Modelle bei einzelnen Sprachen glänzen, aber in anderen Sprachen schwächeln.
  • Bei kurzen Audiodateien dominieren Open-Source-Modelle, während bei langen Audiodateien kommerzielle Anbieter die Nase vorn haben.
  • Der gesamte Code und die Testdatensätze sind auf GitHub und Hugging Face Hub öffentlich zugänglich.

Umfassende Bewertung von Spracherkennungssystemen

Das Open ASR Leaderboard wurde von einem internationalen Konsortium entwickelt, um die Leistung von über 60 verschiedenen Spracherkennungssystemen objektiv zu bewerten. Die getesteten Modelle umfassen sowohl frei verfügbare Open-Source-Lösungen als auch kommerzielle Angebote von 18 unterschiedlichen Unternehmen. Die Bewertung ist in drei Hauptkategorien unterteilt: die Erkennung englischer Sprache, mehrsprachige Tests für fünf europäische Sprachen (Deutsch, Französisch, Italienisch, Spanisch, Portugiesisch) und die Leistung bei der Transkription von Audiodateien, die länger als 30 Sekunden sind. Letzteres ist wichtig, da die Effektivität von Systemen bei unterschiedlichen Audio-Längen variieren kann.

Messung von Genauigkeit und Geschwindigkeit

Zur Bewertung der Systeme werden zwei Schlüsselmetriken herangezogen: die Word Error Rate (WER) und der Inverse Real-Time Factor (RTFx). Die WER gibt den Prozentsatz falsch erkannter Wörter an, wobei ein niedrigerer Wert eine höhere Genauigkeit bedeutet. Der RTFx misst die Verarbeitungsgeschwindigkeit im Verhältnis zur tatsächlichen Audiodauer; ein RTFx von 100 bedeutet beispielsweise, dass eine Minute Audio in nur 0,6 Sekunden transkribiert wird. Um faire Vergleiche zu gewährleisten, werden alle Transkripte vor der Bewertung standardisiert, indem Satzzeichen entfernt, Zahlen in Wörter umgewandelt und Füllwörter gestrichen werden, analog zum Standard des Whisper-Modells von OpenAI.

Leistungsvariationen und Zielkonflikte

Die Ergebnisse zeigen deutliche Unterschiede je nach Modellarchitektur und Trainingsdaten. Bei der englischen Spracherkennung erzielen Modelle, die auf großen Sprachmodellen basieren, die höchste Genauigkeit, wie Nvidias Canary Qwen 2.5B mit einer WER von 5,63 Prozent. Diese Genauigkeit geht jedoch oft mit einer geringeren Geschwindigkeit einher. Alternative, schnellere Ansätze machen mehr Fehler. Bei mehrsprachigen Tests zeigt sich, dass für eine Sprache optimierte Modelle oft in anderen Sprachen schlechter abschneiden. Microsofts Phi-4-Multimodal-Instruct führt die deutschen und italienischen Tests an, während Whisper-Varianten, die nur auf Englisch trainiert wurden, bei englischen Texten besser sind, aber andere Sprachen nicht verstehen.

Open Source vs. Kommerzielle Anbieter und die Zukunft

Bei der Verarbeitung kurzer Audiodateien dominieren frei verfügbare Open-Source-Modelle die Ranglisten, wobei kommerzielle Systeme wie Aqua Voice Avalon nur Platz 6 erreichen. Bei längeren Audiodateien hingegen führen kommerzielle Anbieter wie Elevenlabs Scribe v1 und RevAI Fusion die Listen an, was auf spezielle Optimierungen und professionelle Infrastruktur hindeutet. Das gesamte Bewertungssystem ist auf GitHub öffentlich zugänglich, und Entwickler können neue Modelle über Pull-Requests hinzufügen. Die Initiatoren planen, das Leaderboard um weitere Sprachen und Anwendungsbereiche zu erweitern und neue Messwerte sowie Kombinationen von Systemkomponenten zu integrieren.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like