Der ComfyUI Crashkurs führt Sie von den Grundlagen bis zur sicheren Anwendung dieser leistungsstarken Software, indem er alle wesentlichen Konzepte, Funktionen und praktischen Beispiele behandelt, die Sie benötigen, um dieses Tool zu meistern.
ComfyUI hat die Herangehensweise von Kreativen und Entwicklern an die KI-gestützte Bildgenerierung revolutioniert. Im Gegensatz zu herkömmlichen Schnittstellen bietet die node-basierte Architektur von ComfyUI eine beispiellose Kontrolle über kreative Arbeitsabläufe. Dieser Crashkurs wird Sie von einem völligen Anfänger zu einem versierten Benutzer führen und Ihnen alle notwendigen Konzepte und Funktionen näherbringen.
Was ist ComfyUI?
ComfyUI ist eine kostenlose, quelloffene, node-basierte Benutzeroberfläche und das Backend für Stable Diffusion sowie andere generative Modelle. Man kann es sich als eine visuelle Programmierumgebung vorstellen, in der Sie Bausteine (genannt „Nodes“) miteinander verbinden, um komplexe Arbeitsabläufe zur Erstellung von Bildern, Videos, 3D-Modellen und Audio zu generieren.
Vorteile von ComfyUI gegenüber traditionellen Schnittstellen
- Vollständige Kontrolle über visuelle Arbeitsabläufe ohne Programmierkenntnisse, mit der Möglichkeit, alle Parameter zu steuern.
- Speichern, Teilen und Wiederverwenden ganzer Arbeitsabläufe mit eingebetteten Metadaten in den generierten Dateien.
- Keine versteckten Kosten oder Abonnements; vollständig anpassbar mit benutzerdefinierten Nodes, kostenlos und quelloffen.
- Läuft lokal auf Ihrem Computer, was schnellere Iterationen und geringere Betriebskosten ermöglicht.
- Erweiterte Funktionalität, die nahezu unbegrenzt ist, dank benutzerdefinierter Nodes, die spezifische Bedürfnisse erfüllen können.
Entscheidung zwischen lokaler und cloudbasierter Installation
Bevor Sie ComfyUI im Detail erkunden, müssen Sie entscheiden, ob Sie es lokal oder in einer Cloud-Umgebung ausführen möchten.
Lokale Installation
- Funktioniert offline nach der Installation.
- Keine Abonnementgebühren.
- Vollständige Datenprivatsphäre und Kontrolle.
- Benötigt leistungsstarke Hardware (insbesondere eine gute NVIDIA GPU).
- Manuelle Installation und Updates erforderlich.
Cloudbasierte Installation
- Erfordert eine ständige Internetverbindung.
- Könnte Abonnementkosten verursachen.
- Weniger Kontrolle über Ihre Daten.
- Keine leistungsstarke Hardware erforderlich.
- Automatische Updates.
Für Anfänger wird empfohlen, mit einer cloudbasierten Lösung zu beginnen, um die Benutzeroberfläche und Konzepte zu erlernen. Mit zunehmenden Fähigkeiten sollten Sie einen Wechsel zu einer lokalen Installation in Betracht ziehen, um mehr Kontrolle und geringere langfristige Kosten zu haben.
Verständnis der Kernarchitektur
Bevor Sie mit Nodes arbeiten, ist es wichtig, das theoretische Fundament zu verstehen, auf dem ComfyUI basiert. Man kann es sich als ein Multiversum zwischen zwei Universen vorstellen: dem roten, grünen, blauen (RGB) Universum (was wir sehen) und dem latenten Raumuniversum (wo die Berechnung stattfindet).
Die beiden Universen
Das RGB-Universum ist unsere beobachtbare Welt. Es enthält reguläre Bilder und Daten, die wir mit unseren Augen sehen und verstehen können. Der latente Raum (KI-Universum) ist der Ort, an dem die „Magie“ geschieht. Es handelt sich um eine mathematische Darstellung, die Modelle verstehen und manipulieren können. Es ist chaotisch, voller Rauschen und enthält die abstrakte mathematische Struktur, die die Bildgenerierung antreibt.
Verwendung des Variational Autoencoders
Der Variational Autoencoder (VAE) fungiert als Portal zwischen diesen Universen.
- Encoding (RGB — Latent): Wandelt ein sichtbares Bild in die abstrakte latente Darstellung um.
- Decoding (Latent — RGB): Wandelt die abstrakte latente Darstellung zurück in ein Bild, das wir sehen können.
Dieses Konzept ist wichtig, da viele Nodes innerhalb eines einzelnen Universums arbeiten, und das Verständnis davon wird Ihnen helfen, die richtigen Nodes miteinander zu verbinden.
Definition von Nodes
Nodes sind die grundlegenden Bausteine von ComfyUI. Jeder Node ist eine eigenständige Funktion, die eine spezifische Aufgabe erfüllt. Nodes haben:
- Inputs (linke Seite): Wo die Daten hineinfließen.
- Outputs (rechte Seite): Wo die verarbeiteten Daten herausfließen.
- Parameter: Einstellungen, die Sie anpassen, um das Verhalten des Nodes zu steuern.
Identifizierung von farbcodierten Datentypen
ComfyUI verwendet ein Farbsystem, um anzuzeigen, welche Art von Daten zwischen den Nodes fließt:
| Farbe | Datentyp | Beispiel |
|---|---|---|
| Blau | RGB Bilder | Reguläre sichtbare Bilder |
| Pink | Latente Bilder | Bilder in latenter Darstellung |
| Gelb | CLIP | Text in Maschinenprache umgewandelt |
| Rot | VAE | Modell, das zwischen Universen umwandelt |
| Orange | Conditioning | Prompts und Steueranweisungen |
| Grün | Text | Einfache Textstrings (Prompts, Dateipfade) |
| Lila | Modelle | Checkpoints und Modellgewichte |
| Türkis | ControlNets | Steuerdaten zur Anleitung der Generierung |
Das Verständnis dieser Farben ist sehr wichtig, da sie Ihnen sofort anzeigen, ob Nodes miteinander verbunden werden können.
Wichtige Node-Typen erkunden
Loader-Nodes importieren Modelle und Daten in Ihren Arbeitsablauf:
- CheckPointLoader: Lädt ein Modell (typischerweise mit Modellgewichten, Contrastive Language-Image Pre-training (CLIP) und VAE in einer Datei).
- Load Diffusion Model: Lädt Modellkomponenten separat (für neuere Modelle wie Flux, die Komponenten nicht bündeln).
- VAE Loader: Lädt den VAE-Decoder separat.
- CLIP Loader: Lädt den Text-Encoder separat.
Processing-Nodes transformieren Daten:
- CLIP Text Encode wandelt Textprompts in Maschinenprache um (Conditioning).
- KSampler ist die zentrale Bildgenerierungs-Engine.
- VAE Decode wandelt latente Bilder zurück in RGB um.
Utility-Nodes unterstützen das Workflow-Management:
- Primitive Node: Ermöglicht die manuelle Eingabe von Werten.
- Reroute Node: Verbessert die Visualisierung des Workflows durch Umleitung von Verbindungen.
- Load Image: Importiert Bilder in Ihren Workflow.
- Save Image: Exportiert generierte Bilder.
Verständnis des KSampler Nodes
Der KSampler ist arguably der wichtigste Node in ComfyUI. Er ist der „Roboterbauer“, der tatsächlich Ihre Bilder generiert. Das Verständnis seiner Parameter ist entscheidend für die Erstellung qualitativ hochwertiger Bilder.
Überprüfung der KSampler-Parameter
- Seed (Standard: 0): Der Seed ist der anfängliche Zufallszustand, der bestimmt, welche zufälligen Pixel zu Beginn der Generierung platziert werden.
- Steps (Standard: 20): Definieren die Anzahl der Denoising-Iterationen, die durchgeführt werden. Jeder Schritt verfeinert das Bild schrittweise von reinem Rauschen zu Ihrem gewünschten Ergebnis.
- CFG Scale (Standard: 8.0, Bereich: 0.0-100.0): Steuert, wie strikt die KI Ihrem Prompt folgt.
- Sampler Name: Der Sampler ist der Algorithmus, der für den Denoising-Prozess verwendet wird.
- Scheduler: Steuert, wie Rauschen über die Denoising-Schritte verteilt wird.
- Denoise (Standard: 1.0, Bereich: 0.0-1.0): Bestimmt, welcher Prozentsatz des Eingabebildes durch neuen Inhalt ersetzt wird.
Beispiel: Generierung eines Charakterporträts
Prompt: „Ein Cyberpunk-Android mit neonblauen Augen, detaillierten mechanischen Teilen, dramatischer Beleuchtung.“
Einstellungen:
Modell: Flux
Steps: 20
CFG: 2.0
Sampler: Standard
Auflösung: 1024×1024
Seed: Zufällig
Negativer Prompt: „niedrige Qualität, verschwommen, übersättigt, unrealistisch.“
Erforschen von Bild-zu-Bild-Workflows
Bild-zu-Bild-Workflows bauen auf der Text-zu-Bild-Basis auf und fügen ein Eingabebild hinzu, um den Generierungsprozess zu steuern.
Szenario: Sie haben ein Foto von einer Landschaft und möchten es im Stil eines Ölgemäldes.
- Laden Sie Ihr Landschaftsbild.
- Positiver Prompt: „Ölgemälde, impressionistischer Stil, lebendige Farben, Pinselstriche“
- Denoise: 0.7
Durchführung von Pose-gesteuerten Charaktergenerierungen
Szenario: Sie haben einen Charakter generiert, den Sie lieben, möchten aber eine andere Pose.
- Laden Sie Ihr ursprüngliches Charakterbild.
- Positiver Prompt: „Gleiche Charakterbeschreibung, stehende Pose, Arme an der Seite“
- Denoise: 0.3
Installation und Einrichtung von ComfyUI
Cloudbasierte Installation (am einfachsten für Anfänger)
Besuchen Sie RunComfy.com und klicken Sie auf „Comfy Cloud starten“ oben rechts. Alternativ können Sie sich einfach in Ihrem Browser anmelden.
Verwendung von Windows Portable
Bevor Sie herunterladen, müssen Sie über eine Hardware-Ausstattung verfügen, die eine NVIDIA GPU mit CUDA-Unterstützung oder macOS (Apple Silicon) umfasst. Laden Sie die portable Windows-Version von der ComfyUI GitHub-Releases-Seite herunter. Entpacken Sie sie an Ihrem gewünschten Ort. Führen Sie run_nvidia_gpu.bat (wenn Sie eine NVIDIA GPU haben) oder run_cpu.bat aus. Öffnen Sie Ihren Browser unter http://localhost:8188.
Durchführung einer manuellen Installation
- Installieren Sie Python: Laden Sie die Version 3.12 oder 3.13 herunter.
- Repository klonen: git clone https://github.com/comfyanonymous/ComfyUI.git
- Installieren Sie PyTorch: Befolgen Sie die plattformspezifischen Anweisungen für Ihre GPU.
- Installieren Sie Abhängigkeiten: pip install -r requirements.txt
- Modelle hinzufügen: Platzieren Sie Modell-Checkpoints in models/checkpoints.
- Ausführen: python main.py
Arbeiten mit verschiedenen KI-Modellen
ComfyUI unterstützt zahlreiche hochmoderne Modelle. Hier sind die aktuellen Top-Modelle:
- Flux (empfohlen für Realismus)
- Stable Diffusion 3.5
- Ältere Modelle (SD 1.5, SDXL)
Flux ist hervorragend für fotorealistische Bilder geeignet, bietet ein ausgewogenes Verhältnis zwischen Qualität und Geschwindigkeit und wurde von der Community umfassend optimiert.
Fortschrittliche Workflows mit Low-Rank-Anpassungen
Low-Rank-Anpassungen (LoRAs) sind kleine Adapterdateien, die Modelle für spezifische Stile, Themen oder Ästhetiken optimieren, ohne das Basismodell zu verändern. Häufige Anwendungen umfassen die Konsistenz von Charakteren, Kunststile und benutzerdefinierte Konzepte. Um eine zu verwenden, fügen Sie einen „Load LoRA“-Node hinzu, wählen Sie Ihre Datei aus und verbinden Sie sie mit Ihrem Workflow.
Bildgenerierung mit ControlNets steuern
ControlNets bieten räumliche Kontrolle über die Generierung und zwingen das Modell, Pose, Kantenkarten oder Tiefeninformationen zu respektieren:
- Bestimmte Posen aus Referenzbildern erzwingen.
- Objektstruktur beibehalten, während der Stil geändert wird.
- Komposition basierend auf Kantenkarten steuern.
- Tiefeninformationen respektieren.
Selektive Bildbearbeitung mit Inpainting durchführen
Inpainting ermöglicht es Ihnen, nur bestimmte Bereiche eines Bildes zu regenerieren, während der Rest intakt bleibt.
Workflow: Bild laden — Maskierung malen — Inpainting KSampler — Ergebnis.
Erhöhung der Auflösung mit Upscaling
Verwenden Sie Upscale-Nodes nach der Generierung, um die Auflösung zu erhöhen, ohne das gesamte Bild neu zu generieren. Beliebte Upscaler sind RealESRGAN und SwinIR.
Fazit
ComfyUI stellt einen bedeutenden Wandel in der Inhaltserstellung dar. Seine node-basierte Architektur verleiht Ihnen eine Macht, die zuvor Software-Ingenieuren vorbehalten war, und bleibt dennoch für Anfänger zugänglich. Die Lernkurve ist real, aber jedes Konzept, das Sie lernen, eröffnet neue kreative Möglichkeiten.
Beginnen Sie damit, einen einfachen Text-zu-Bild-Workflow zu erstellen, generieren Sie einige Bilder und passen Sie die Parameter an. Innerhalb weniger Wochen werden Sie in der Lage sein, anspruchsvolle Workflows zu erstellen. Innerhalb weniger Monate werden Sie die Grenzen dessen, was im generativen Bereich möglich ist, erweitern.
Der Autor ist Software-Ingenieur und technischer Schriftsteller, der leidenschaftlich daran interessiert ist, modernste Technologien zu nutzen, um fesselnde Erzählungen zu erstellen, mit einem scharfen Blick für Details und einem Talent dafür, komplexe Konzepte zu vereinfachen.