Generative KI-Modelle, insbesondere solche, die Bilder aus Text erstellen, haben in letzter Zeit enorm an Popularität gewonnen. Tools wie DALL-E und Midjourney, die auf der Technologie der Diffusionsmodelle basieren, ermöglichen es Nutzern, visuelle Inhalte durch einfache Texteingaben zu generieren. Dieser Artikel beleuchtet die Funktionsweise dieser faszinierenden Technologie.
Was sind Diffusionsmodelle?
Diffusionsmodelle sind eine Art von generativen KI-Algorithmen, die darauf ausgelegt sind, neue Daten zu erzeugen, indem sie einen Prozess des Hinzufügens und anschließenden Entfernens von Rauschen durchlaufen. Man kann sie sich als hochentwickelte Entrauschungsmodelle vorstellen, die lernen, wie man aus reinem Rauschen schrittweise klare Bilder rekonstruiert. Die Grundlagen dieser Modelle wurden erstmals 2015 in einer wissenschaftlichen Arbeit vorgestellt, aber die moderne Form, die qualitativ hochwertige Bilder erzeugen kann und frühere Modelle wie GANs übertrifft, wurde 2020 weiterentwickelt.
Wie funktionieren Diffusionsmodelle?
Der Prozess lässt sich in zwei Hauptphasen unterteilen:
- Vorwärtsprozess (Diffusion): Ein Bild wird schrittweise mit Rauschen überlagert, bis es nicht mehr von zufälligem Rauschen zu unterscheiden ist. Dieser Prozess wird oft als Markov-Kette modelliert, bei der jeder Schritt nur vom vorherigen abhängt. Die schrittweise Verrauschung ermöglicht es dem Modell, die Übergänge zu lernen, die für die spätere Rekonstruktion notwendig sind.
- Rückwärtsprozess (Entrauschung): Ein trainiertes neuronales Netzwerk, oft eine U-Net-Architektur, lernt, das Rauschen iterativ zu entfernen. Das Modell erhält das verrauschte Bild und den aktuellen Zeitschritt als Eingabe und sagt voraus, wie das Rauschen reduziert werden kann. Durch viele solcher Schritte wird das Bild schrittweise klarer, bis das endgültige Bild entsteht.
Textkonditionierung: Die Magie hinter Text-zu-Bild
Um die Bildgenerierung durch Textanweisungen zu steuern, wird die Textkonditionierung eingesetzt. Dabei wird ein Text-Encoder wie CLIP verwendet, um die Texteingabe in eine numerische Darstellung (Embedding) umzuwandeln. Dieses Embedding wird dann über Mechanismen wie Cross-Attention in den Diffusionsprozess integriert. Bei jedem Schritt des Rückwärtsprozesses hilft die Cross-Attention dem Modell, die Bildgenerierung mit der Bedeutung des Text-Prompts abzugleichen.
Unterschiede zwischen DALL-E und Midjourney
Obwohl beide auf Diffusionsmodellen basieren, gibt es Unterschiede:
- DALL-E: Nutzt ein CLIP-basiertes Embedding für die Textkonditionierung und Classifier-Free Guidance, um die Übereinstimmung mit dem Prompt zu optimieren.
- Midjourney: Verwendet eine eigene Diffusionsmodell-Architektur, die auf hohe Realität optimiert ist, und legt möglicherweise mehr Wert auf stilistische Interpretation.
Zusätzlich unterscheiden sie sich in der Handhabung von Prompts: DALL-E kann längere Prompts verarbeiten, während Midjourney oft besser mit prägnanteren Formulierungen funktioniert.
Fazit
Diffusionsmodelle sind die treibende Kraft hinter modernen Text-zu-Bild-Systemen wie DALL-E und Midjourney. Durch die Kombination von Vorwärts- und Rückwärtsprozessen sowie Textkonditionierung ermöglichen sie die Erzeugung neuartiger Bilder aus reinem Rauschen, gesteuert durch menschliche Sprache.