KI-Modell Gemini 2.5 Flash bearbeitet Bilder.

Google revolutioniert Bildbearbeitung mit neuem KI-Modell Gemini 2.5 Flash

Google hat mit Gemini 2.5 Flash Image Generation ein neues KI-Bildmodell vorgestellt, das die Bildbearbeitung revolutioniert. Dieses Modell ermöglicht nicht nur radikale Veränderungen von Bildern, sondern behält dabei auch die Erkennbarkeit von Personen und Tieren bei. Es zeichnet sich durch eine verbesserte Textverständnisfähigkeit aus, ähnlich wie GPT-4o, und bietet Funktionen wie Charakterkonsistenz über mehrere Bilder hinweg.

Key Takeaways

  • Charakterkonsistenz: Ermöglicht die Darstellung von Personen, Objekten oder Tieren über verschiedene Bilder hinweg mit visueller Konsistenz.
  • Präzise Bildbearbeitung: Erlaubt lokale Bearbeitungen per Texteingabe, wie das Unschärfen von Hintergründen oder das Entfernen von Objekten.
  • Multi-Image Fusion: Bis zu drei Bilder können zu neuen Kompositionen verschmolzen werden.
  • Stiltransfer: Ermöglicht die Übertragung von Farbgebung, Textur oder Design auf andere Objekte.
  • Real-World Reasoning: Das Modell kann einfache Kausalzusammenhänge erfassen und visuell darstellen.

Verbesserte Bildbearbeitung und Charakterkonsistenz

Das neue Modell Gemini 2.5 Flash Image Generation baut auf Googles bisheriger Gemini-Sprachmodell-Bildgenerierung auf und bietet eine verbesserte Textverständnisfähigkeit, die es mit Modellen wie GPT-4o von ChatGPT vergleichbar macht. Ein herausragendes Merkmal ist die "Charakterkonsistenz", die es Nutzern erlaubt, eine Person, ein Objekt oder ein Tier über verschiedene Bilder hinweg visuell konsistent darzustellen. Dies ist besonders nützlich für die Erstellung von Bildreihen, Produktabbildungen aus unterschiedlichen Perspektiven oder einheitlichen Markenbildern.

Präzise Bearbeitungen per Texteingabe

Gemini 2.5 Flash ermöglicht präzise, lokal begrenzte Bearbeitungen durch einfache Texteingaben. Nutzer können ohne manuelle Auswahlwerkzeuge den Hintergrund eines Fotos unscharf machen, Flecken entfernen, Farben hinzufügen oder Objekte löschen. Eine begleitende Vorlagen-App namens "PixShop" demonstriert diese Funktionen durch UI- und Prompt-Steuerung.

Bildkomposition, Stiltransfer und Weltwissen

Das Modell erlaubt das Verschmelzen von bis zu drei Bildern, um beispielsweise Produktfotos mit Raumfotos zu kombinieren und fotorealistische Interior-Visualisierungen zu erstellen. Komplexe Kompositionen mit mehreren Elementen sind mit einem einzigen Prompt realisierbar. Darüber hinaus beherrscht Gemini 2.5 Flash stilistische Transformationen, bei denen Farbgebung, Textur oder Design eines Objekts auf ein anderes übertragen werden kann, während Form und Details erhalten bleiben. Eine weitere Fähigkeit ist das "Real-World Reasoning", bei dem das Modell einfache Kausalzusammenhänge versteht und visuell darstellt, basierend auf seinem Weltwissen.

Verfügbarkeit für Endverbraucher und Entwickler

Die neue Funktion ist ab sofort in der Gemini-App verfügbar. Nutzer müssen dabei das "Flash"-Sprachmodell anstelle des "Imagen"-Modells auswählen. Für Entwickler ist Gemini 2.5 Flash Image als Vorschauversion über die Gemini API, Google AI Studio und Vertex AI zugänglich. Die Nutzung ist kostenpflichtig, wobei die Preise mit dem Vorgängermodell vergleichbar sind.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like