Tencent hat mit X-Omni eine neue Bild-KI vorgestellt, die als starker Konkurrent zu GPT-4o gehandelt wird. Das System kombiniert Open-Source-Komponenten und setzt auf Reinforcement Learning, um die Schwächen bisheriger Hybrid-Ansätze zu überwinden und beeindruckende Ergebnisse, insbesondere bei der Textdarstellung in Bildern, zu erzielen.
X-Omni: Ein neuer Ansatz für Bildgenerierung
Tencents X-Omni verfolgt einen innovativen Ansatz, um die Qualität der Bildgenerierung zu verbessern. Traditionelle KI-Modelle, die Bilder Token für Token erstellen, leiden unter kumulativen Fehlern, die die Bildqualität mindern. Um dem entgegenzuwirken, setzen aktuelle Systeme auf Hybrid-Ansätze, die autoregressive Modelle für die semantische Planung mit Diffusionsmodellen für die finale Bildgenerierung kombinieren. X-Omni adressiert jedoch eine Schwäche dieser Hybrid-Systeme: die oft unzureichende Abstimmung zwischen den autoregressiv generierten Tokens und dem, was der Diffusions-Decoder erwartet.
Reinforcement Learning als Schlüssel zur Verbesserung
Der entscheidende Unterschied von X-Omni liegt in der Trainingsmethode. Anstatt die autoregressiven und Diffusions-Komponenten separat zu trainieren, nutzt Tencent Reinforcement Learning, um beide Modelle aufeinander abzustimmen. Dieses Verfahren ermöglicht eine kontinuierliche Verbesserung der Bildqualität während des Trainingsprozesses. Nach nur 200 Trainingsschritten übertrifft X-Omni die Ergebnisse herkömmlicher Hybrid-Trainingsmethoden deutlich. Das System generiert semantische Tokens, die von einem Diffusions-Decoder in Bilder umgewandelt werden. Ein Bewertungssystem gibt Feedback zur Qualität, wodurch das autoregressive Modell lernt, Tokens zu produzieren, die vom Decoder besser verarbeitet werden können.
Beeindruckende Textdarstellung und Open-Source-Integration
- X-Omni erzielt herausragende Ergebnisse bei der Darstellung von Text in Bildern, insbesondere bei längeren Texten.
- Bei englischem Text erreicht es auf etablierten Benchmarks 0,901 Punkte und übertrifft damit vergleichbare Systeme.
- Bei chinesischem Text schneidet es sogar besser ab als GPT-4o.
- Das System nutzt das Open-Source-Sprachmodell Qwen2.5-7B von Alibaba und das Diffusionsmodell FLUX.1-dev von Black Forest Labs.
- Für das Training wurde ein umfassendes Bewertungssystem entwickelt, das menschliche Präferenzen, hochauflösende Bilder und die Übereinstimmung mit Text-Prompts berücksichtigt.
Leistung im Vergleich zur Konkurrenz
Bei der allgemeinen Bildgenerierung erreicht X-Omni auf dem DPG-Benchmark 87,65 Punkte, was den besten Wert unter allen "Unified Models" darstellt und leicht besser ist als GPT-4o. Auch bei Bildverständnis-Aufgaben zeigt das System solide Leistungen. X-Omni ist ein Paradebeispiel für die Open-Source-Ökonomie, indem es verschiedene Systeme von unterschiedlichen Forschungsteams, einschließlich Konkurrenten, kombiniert, um ein Modell zu schaffen, das mit kommerziellen Anbietern wie OpenAI mithalten kann. Tencent stellt X-Omni auf Hugging Face und Github quelloffen zur Verfügung.