Microsoft hat mit MAI-Transcribe-1 ein innovatives Sprache-zu-Text-Modell präsentiert, das in 25 verschiedenen Sprachen operiert. Laut Unternehmensangaben erzielt es auf dem FLEURS-Benchmark die niedrigste Wortfehlerrate unter allen getesteten Modellen und übertrifft damit Wettbewerber wie Scribe v2, Whisper-large-V3, GPT-Transcribe und Gemini 3.1 Flash-Lite. Das Modell ist darauf ausgelegt, auch unter herausfordernden Aufnahmebedingungen zu funktionieren und kann Hintergrundgeräusche, schlechte Audioqualität sowie überlappende Sprache zuverlässig verarbeiten.
MAI-Transcribe-1 (grün) zeigt in der FLEURS-Benchmark über 25 Sprachen hinweg nahezu durchgehend die niedrigste Wortfehlerrate und schlägt damit Scribe v2, Gemini 3.1 Flash-Lite, Whisper-large-v3 und GPT-Transcribe. | Bild: Microsoft
Microsoft plant, das Modell schrittweise in Copilot Voice und Microsoft Teams zu integrieren. Entwickler haben ab sofort die Möglichkeit, es als Public Preview über Microsoft Foundry und den Microsoft AI Playground zu testen. Das Modell arbeitet 2,5-mal schneller als das bisherige Azure-Fast-Angebot und kostet 0,36 Dollar pro Audiostunde. In Kombination mit MAI-Voice-1 und einem Sprachmodell können laut Microsoft leistungsfähige Sprachagenten entwickelt werden. Jüngst wurden auch OpenAI startet Wettbewerb zur Entwicklung eines kompakten Sprachmodells und OpenAI präsentiert neue Modelle: GPT-5.4 mini und nano mit verbesserten Fähigkeiten auf vergleichbarem Niveau vom kanadischen Unternehmen Cohere und dem französischen Unternehmen Mistral vorgestellt.
„`
Bildquelle: ai-generated-gemini