Tencents X-Omni Bild-KI KI-Modell

Tencents X-Omni: Bild-KI mit Open-Source-Power fordert GPT-4o heraus

Tencent hat mit X-Omni eine neue Bild-KI vorgestellt, die als starker Konkurrent zu GPT-4o gehandelt wird. Das System kombiniert Open-Source-Komponenten und setzt auf Reinforcement Learning, um die Schwächen bisheriger Hybrid-Ansätze zu überwinden und beeindruckende Ergebnisse, insbesondere bei der Textdarstellung in Bildern, zu erzielen.

X-Omni: Ein neuer Ansatz für Bildgenerierung

Tencents X-Omni verfolgt einen innovativen Ansatz, um die Qualität der Bildgenerierung zu verbessern. Traditionelle KI-Modelle, die Bilder Token für Token erstellen, leiden unter kumulativen Fehlern, die die Bildqualität mindern. Um dem entgegenzuwirken, setzen aktuelle Systeme auf Hybrid-Ansätze, die autoregressive Modelle für die semantische Planung mit Diffusionsmodellen für die finale Bildgenerierung kombinieren. X-Omni adressiert jedoch eine Schwäche dieser Hybrid-Systeme: die oft unzureichende Abstimmung zwischen den autoregressiv generierten Tokens und dem, was der Diffusions-Decoder erwartet.

Reinforcement Learning als Schlüssel zur Verbesserung

Der entscheidende Unterschied von X-Omni liegt in der Trainingsmethode. Anstatt die autoregressiven und Diffusions-Komponenten separat zu trainieren, nutzt Tencent Reinforcement Learning, um beide Modelle aufeinander abzustimmen. Dieses Verfahren ermöglicht eine kontinuierliche Verbesserung der Bildqualität während des Trainingsprozesses. Nach nur 200 Trainingsschritten übertrifft X-Omni die Ergebnisse herkömmlicher Hybrid-Trainingsmethoden deutlich. Das System generiert semantische Tokens, die von einem Diffusions-Decoder in Bilder umgewandelt werden. Ein Bewertungssystem gibt Feedback zur Qualität, wodurch das autoregressive Modell lernt, Tokens zu produzieren, die vom Decoder besser verarbeitet werden können.

Beeindruckende Textdarstellung und Open-Source-Integration

  • X-Omni erzielt herausragende Ergebnisse bei der Darstellung von Text in Bildern, insbesondere bei längeren Texten.
  • Bei englischem Text erreicht es auf etablierten Benchmarks 0,901 Punkte und übertrifft damit vergleichbare Systeme.
  • Bei chinesischem Text schneidet es sogar besser ab als GPT-4o.
  • Das System nutzt das Open-Source-Sprachmodell Qwen2.5-7B von Alibaba und das Diffusionsmodell FLUX.1-dev von Black Forest Labs.
  • Für das Training wurde ein umfassendes Bewertungssystem entwickelt, das menschliche Präferenzen, hochauflösende Bilder und die Übereinstimmung mit Text-Prompts berücksichtigt.

Leistung im Vergleich zur Konkurrenz

Bei der allgemeinen Bildgenerierung erreicht X-Omni auf dem DPG-Benchmark 87,65 Punkte, was den besten Wert unter allen "Unified Models" darstellt und leicht besser ist als GPT-4o. Auch bei Bildverständnis-Aufgaben zeigt das System solide Leistungen. X-Omni ist ein Paradebeispiel für die Open-Source-Ökonomie, indem es verschiedene Systeme von unterschiedlichen Forschungsteams, einschließlich Konkurrenten, kombiniert, um ein Modell zu schaffen, das mit kommerziellen Anbietern wie OpenAI mithalten kann. Tencent stellt X-Omni auf Hugging Face und Github quelloffen zur Verfügung.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like