Alibaba hat sein KI-Modell Qwen-Image um leistungsstarke Bildbearbeitungsfunktionen erweitert. Die neue Version, Qwen-Image-Edit, zeichnet sich insbesondere durch die präzise Manipulation von Texten innerhalb von Bildern aus und kombiniert zwei fortschrittliche Ansätze zur Bildverarbeitung.
Key Takeaways
- Alibaba erweitert Qwen-Image um Bildbearbeitungsfunktionen, mit einem Fokus auf Textmanipulation.
- Das Modell nutzt eine duale Architektur für semantische und visuelle Bildkontrolle.
- Es unterstützt grundlegende und komplexe Bildmanipulationen, einschließlich Stil-Transfer und Objektdrehung.
- Die Textbearbeitung in Bildern, sowohl auf Chinesisch als auch auf Englisch, ist ein Kernmerkmal.
- Qwen-Image-Edit ist über Qwen Chat zugänglich und auf Plattformen wie Github und Hugging Face verfügbar.
Fortschrittliche Bildbearbeitung mit Qwen-Image-Edit
Qwen-Image-Edit basiert auf Alibabas 20-Milliarden-Parameter-Modell Qwen-Image und integriert zwei unterschiedliche Methoden zur Bildbearbeitung. Das System verarbeitet Eingabebilder parallel über Qwen2.5-VL für die semantische Steuerung und einen Variational Autoencoder (VAE) für die visuelle Anpassung. Die genaue Architektur wird von Alibaba noch nicht im Detail offengelegt.
Die Architektur ermöglicht sowohl einfache Bildänderungen als auch tiefgreifende semantische Anpassungen. Während die visuelle Bearbeitung darauf abzielt, andere Bildbereiche unverändert zu lassen, erlaubt die semantische Bearbeitung Pixeländerungen im gesamten Bild unter Beibehaltung der semantischen Konsistenz.
Vielseitige Anwendungsbereiche
Für die semantische Bearbeitung demonstriert Alibaba die Erstellung von IP-Inhalten, indem es das firmeneigene Capybara-Maskottchen variiert. Dies eignet sich beispielsweise für die Erstellung von Stickern in Messenger-Apps, wobei die Charakterkonsistenz auch bei signifikanten Pixeländerungen erhalten bleibt.
Weitere Einsatzmöglichkeiten umfassen die Generierung neuer Perspektiven durch 90- oder 180-Grad-Rotationen von Objekten sowie Stil-Transfer für die Avatar-Erstellung. Ein Beispiel hierfür ist die Umwandlung von Porträts im Stil von Studio Ghibli.
Qwen-Image-Edit kann auch Schilder inklusive realistischer Reflexionen hinzufügen, feine Haarsträhnen entfernen oder die Farbe einzelner Buchstaben ändern. Modifikationen am Hintergrund und an Kleidungsstücken sind ebenfalls möglich. So kann beispielsweise ein Holzschild mit "Welcome to Penguin Beach" vor einer Pinguinkolonie platziert werden, wobei natürliche Schatten erzeugt werden.
Bilinguale Textbearbeitung und Korrektur
Ein besonderer Fokus liegt auf der Textmanipulation in chinesischer und englischer Sprache. Das System kann Texte direkt in Bilder einfügen, löschen oder modifizieren, wobei Schriftart, Größe und Stil des Originals beibehalten werden. Nutzer können Begrenzungsrahmen um fehlerhafte Bereiche ziehen, woraufhin das Modell die markierten Regionen korrigiert.
Bei schwierigen Zeichen wie "稽" kann es zunächst zu Problemen kommen. In solchen Fällen ermöglicht eine verkettete Bearbeitung die schrittweise Verbesserung: Nutzer markieren spezifische Teilbereiche problematischer Zeichen und lassen das Modell diese Details nachbearbeiten, bis das gewünschte Ergebnis erzielt ist.
Schneller Fortschritt bei Bildmodellen
Alibaba gibt an, dass Qwen-Image-Edit in mehreren öffentlichen Benchmarks für Bildbearbeitungsaufgaben State-of-the-Art-Performance erzielt, nennt jedoch keine konkreten Ergebnisse. Das Modell ist über Qwen Chat mit der "Image Editing" Funktion zugänglich und steht auf Github, Hugging Face und Modelscope zur Verfügung.
Die Entwicklung von Qwen-Image-Edit unterstreicht den rasanten Fortschritt bei Bildmodellen, insbesondere bei gezielten Bearbeitungen und Text-Rendering. Bisher war es für KI-Systeme eine große Herausforderung, nur spezifische Bereiche in Bildern zu verändern, während der Rest unverändert blieb. Kürzlich stellte Black Forest Labs mit Flux.1 Kontext einen ähnlichen Ansatz vor, der Text-zu-Bild-Generierung und Bildbearbeitung in einem Modell vereint, zeigte jedoch in längeren Bearbeitungsketten sichtbare Artefakte und Schwächen bei der korrekten Prompt-Umsetzung.