Google hat sein KI-gestütztes Bildmodell Gemini 2.5 Flash Image, intern auch als „Nano Banana“ bezeichnet, aufgerüstet und für den breiten Produkiveinsatz freigegeben. Die Veröffentlichung bringt nicht nur technische Verbesserungen, sondern eröffnet auch neue kreative Einsatzmöglichkeiten für Entwickler und Unternehmen.
Key Takeaways
- Gemini 2.5 Flash Image jetzt produktiv einsetzbar
- Erweiterte Bildbearbeitung und Konsistenz bei Charakteren
- Zehn verschiedene Seitenverhältnisse unterstützen viele Branchenanwendungen
- Einfache Steuerung per natürlicher Sprache
- Geringe Bild- und Tokenpreise
Umfangreiche Neuerungen im Überblick
Gemini 2.5 Flash Image ist jetzt in Produktionsumgebungen frei verfügbar. Das Modell kann Bilder generieren, verändern und kombinieren. Entwickler erhalten die Möglichkeit, mit natürlicher Sprache gezielt Änderungen vorzunehmen, was vor allem für Kreativbranchen und Spieleentwickler einen großen Mehrwert darstellt.
Gemini unterstützt zehn verschiedene Bildformate, von 21:9 für Kinoposter bis 9:16 für Social Media. Diese Flexibilität macht das Modell für eine breite Palette von Anwendungen attraktiv.
Integration in Entwickler-Workflows
Das Modell ist über die Gemini-API und auf Vertex AI zugänglich. Im Google AI Studio lassen sich eigene Anwendungen erstellen und mit dem sogenannten Build Mode direkt testen. Aus einfachen Texteingaben entstehen so Prototypen, die der Entwickler entweder im Studio nutzen oder als Code exportieren kann.
Praxisnahe Beispiele und Anwendungsgebiete
Zahlreiche Beispielprojekte zeigen das breite Spektrum von Gemini 2.5 Flash Image:
- Bananimate: Ein GIF-Animator mit dem Maskottchen „Nano Banana“
- Enhance: Ein Zoom-Tool mit verstecktem Easter Egg
- Fit Check: Eine virtuelle Umkleidekabine für Modevorschauen
In der Industrie etwa nutzt das Start-up Cartwheel das Modell kombiniert mit einem 3D-Posing-Tool, um konsistente Charaktere aus jeder Kameraperspektive darzustellen.
Auch das KI-Studio Volley integriert Gemini in sein Spiel „Wit’s End“. Hier profitieren Spieler von niedrigen Latenzen und der Möglichkeit, Bilder in Echtzeit per Sprache oder Chat zu steuern.
Preisstruktur und Verfügbarkeit
Die Bilderzeugung mit Gemini 2.5 Flash Image kostet aktuell 0,039 US-Dollar pro Bild. Für eine Million Ausgabetokens werden 30 US-Dollar berechnet. Diese Preispolitik orientiert sich am bestehenden Gemini-Standardmodell und ist besonders für Unternehmen attraktiv, die flexibel skalieren möchten.
Zukunftsausblick
Mit dem Update unterstreicht Google seinen Anspruch, die Schnittstelle von Kreativität und Künstlicher Intelligenz weiter auszubauen. Entwickler können sich auf konstante Erweiterungen und neue Features freuen, wodurch die Möglichkeiten im Einsatz von KI-generierten Bildern weiter wachsen.