Cohere hat ein neues KI-Modell namens Command A Vision vorgestellt, das sich durch seine Fähigkeit auszeichnet, visuelle Daten wie Bilder, Diagramme und PDFs zu analysieren. Dieses fortschrittliche Modell übertrifft laut Cohere in Benchmarks etablierte Modelle wie GPT-4.1, Llama 4 Maverick und Mistral Medium 3.
Ein KI-Modell, das mehr als nur Text versteht
Command A Vision geht über die reine Texterkennung hinaus. Seine OCR-Funktion erfasst nicht nur den Textinhalt, sondern auch das Layout und die Struktur von Dokumenten. Dies ermöglicht die strukturierte Ausgabe von extrahierten Daten, beispielsweise von Rechnungen oder Formularen, im JSON-Format. Darüber hinaus ist das Modell in der Lage, reale Szenen zu analysieren, was Anwendungen wie die Risikoerkennung in Industrieanlagen ermöglicht.
Key Takeaways
- Umfassende visuelle Analyse: Versteht Bilder, Diagramme und Dokumente.
- Überlegene Leistung: Übertrifft laut Benchmarks GPT-4.1, Llama 4 Maverick und Mistral Medium 3.
- Strukturierte Datenausgabe: Extrahiert und formatiert Daten aus Dokumenten im JSON-Format.
- Anwendungsbereiche: Geeignet für die Analyse von Industrieanlagen und die Erkennung von Risiken.
Verfügbarkeit und technische Anforderungen
Das neue KI-Modell ist über die Cohere-Plattform zugänglich. Für Forschungszwecke steht es zudem auf Hugging Face zur Verfügung. Technisch gesehen kann Command A Vision lokal betrieben werden, wobei entweder zwei A100-Grafikprozessoren oder ein H100-Prozessor mit 4-Bit-Quantisierung erforderlich sind.