Ich warfare nicht zu aktiv bei der Verwendung von AI, um Bilder zu generieren. Meistens, weil keines der bisherigen KI -Instruments in der Lage ist, das Qualitätsniveau zu liefern, das ich in meinen Bildern suche. Und so fällt das Erstellen von Bildern für meine Blogs hauptsächlich auf meinen Teamkollegen und einen außergewöhnlichen Grafikdesigner Armaan. In diesem speziellen Weblog habe ich Armaan eine Pause gegeben. Vielen Dank an Googles neues „Nano-Banana“ -Gemini 2.5-Flash-Bild.
Das ist das, was das neueste Bildgenerierungsmodell aus der Haus von Gemini heißt. Das Gemini 2.5 Flash Picture oder Nano-Banana ist mehr als eine Bildgenerierung. Warum? Mit dem Replace können Sie jetzt mehrere Bilder in ein einzelnes Bild mischen. Zumindest behauptet es, wie es in einem Google-Weblog erwähnt wird, in dem das neue Gemini Picture-Gen-Modell vorgestellt wird.
Wenn es das tut, was es sagt und es intestine macht, kenne ich persönlich ein Dutzend KI -Enthusiasten, die sich nicht freuen, es zu versuchen. Falls Sie ein solcher Liebhaber der KI-Bildgenerierung sind, ist hier alles, was Sie über das neue Gemini 2.5-Flash-Bild wissen müssen, zusammen mit einem praktischen Experiment, das ich darauf ausprobiert habe.
Was ist Gemini 2.5 Flash Picture?
Kurz gesagt, Gemini 2.5 Flash Picture ist ein neues Bildgenerierungs- und Bearbeitungsmodell von Google. Es ist ein Replace für das viel gefeierte Gemini 2.0-Flash-Bildbildungsmodell, das es schneller und besser macht, mit hinzugefügten Bildbearbeitungsfunktionen.
Für den Kontext kann das neue Gemini 2.5 -Flash -Bild mehrere Bilder in eins einfügen, die Charakterkonsistenz beibehalten und zielgerichtete Transformationen in einem Bild vornehmen. Wie Google es ausdrückt, verwendet das Modell Geminis „Weltwissen, um Bilder zu generieren und zu bearbeiten“.
Lassen Sie uns diese Funktionen ein wenig detaillierter erkunden.
Gemini 2.5 Flash -Bildfunktionen
Behalten Sie die Charakterkonsistenz auf
Quick jeder, der KI verwendet hat, um Bilder zu generieren, wird sich darauf beziehen. Einzelne Bildaufforderungen dienen Ihnen normalerweise intestine. Aber sobald Sie möchten, dass ein bestimmtes Component wie über einen Satz von Bildern gezeigt wird, ins Wanken geraten, ins Stocken geraten.
Google behauptet, daran gearbeitet zu haben, mit dem neuen Gemini 2.5 -Flash -Picture. Hier ist, was es für die Fähigkeit des Nano-Banana in dieser Hinsicht sagt:
„Sie können jetzt den gleichen Charakter in verschiedene Umgebungen einfügen, ein einzelnes Produkt aus mehreren Blickwinkeln in neuen Einstellungen präsentieren oder konsistente Markengüter generieren, während Sie das Thema erhalten.“
Hat es es genagelt? Finden Sie in Kürze in meinem praktischen Experiment mit dem Modell heraus.
Promptbasierte Bildbearbeitung
Dies ist ähnlich wie das „Photoshopping“ ein bestimmtes Component in/ aus einem Bild, aber durch einfache Eingabeaufforderungen. Gemini 2.5 Flash Picture kann „den Hintergrund eines Bildes verwischen, einen Fleck in einem T-Shirt entfernen, eine ganze Particular person von einem Foto entfernen“ und vieles mehr, wie Google behauptet.
Die genauen lokalen Änderungen mit natürlichen Sprachaufforderungen machen es zu einem leistungsstarken KI -Modell, sofern es es intestine macht. Mach dir keine Sorgen. Wir werden es früh genug in unserem Handeln ausprobieren.
Multi-Picture-Fusion
Dies scheint das neue heiße Replace für das Gemini 2.5 Flash-Picture zu sein. Das Nano-Banana kann nach Google „mehrere Eingabebilder verstehen und zusammenführen“, was bedeutet, dass Sie Bilder jetzt mit einer einzigen Eingabeaufforderung fusionieren können. Setzen Sie eine Particular person, die das Ereignis auf einem Gruppenfoto verpasst hat, ein Objekt in eine Szene oder eine andere Verwendung ein, die Sie sich vorstellen können. Alle mit einer einfachen Eingabeaufforderung.
Praktisches Laden. Bleiben Sie dran!
Kenntnisse der Heimatwelt
Wie ich in meinem Artikel betonte – – Warum KI keinen gesunden Menschenverstand hatAI -Modellen fehlen ein tiefes, semantisches Verständnis der realen Welt. Quick alle ästhetischen Photographs, die sie produzieren, sind ein Ergebnis ihrer Trainingsdaten. Google behauptet, dies umgangen zu haben, da das neue Nano-Banana-Modell „von Geminis weltweitem Wissen profitiert“.
Ohne weitere Informationen darüber zu teilen, wie dies ermöglicht wurde, gibt Google an, dass diese Fähigkeit neue Anwendungsfälle für das Gemini 2.5-Flash-Bildmodell ermöglicht. Keine Sorge, wir werden es bald für all seinen Wert testen.
Aber vorher können Sie auf das neue Bild von Gemini Flash 2.5 zugreifen
Gemini Flash 2.5 Picture Barrierefreiheit
Das neue Google Nano-Banana oder das Gemini Flash 2.5-Bild ist derzeit über die Gemini-App oder -webelle für einzelne Benutzer verfügbar.
Für einzelne Benutzer
Sie können die App einfach auf Ihrem Telefon herunterladen oder gemini.google.com besuchen und auf das Modell zugreifen, indem Sie oben 2.5 Flash oben auswählen und auf „Bilder erstellen“ im Abschnitt „Instruments“ klicken.
Für Entwickler
Entwickler können über Gemini API und Google AI Studio auf dasselbe zugreifen, während Enterprise -Shoppers über die Vertex AI auf das Instrument zugreifen können.
Befolgen Sie die folgenden Schritte für den Zugriff über API:
1. Installieren Sie die erforderlichen Bibliotheken
Installieren Sie die neueste Model des Google Generative AI SDK mit PIP und stellen Sie sicher, dass Sie PIL (Kissen) für die Bildverarbeitung installiert haben:
pip set up google-generativeai pillow
Mit diesem Befehl importiert alle erforderlichen Bibliotheken zu Beginn Ihres Skripts zur reibungslosen Ausführung.
2. Authentifizieren Sie Ihren API -Zugriff
Richten Sie die Authentifizierung ein, indem Sie Ihren API -Schlüssel (falls erforderlich) als Umgebungsvariable oder Authentifizierung über Cloud -Identitätsanbieter exportieren, damit der Genai SDK auf die generativen AI -Endpunkte von Google zugreifen kann:
import os
os.environ("GOOGLE_API_KEY") = ""
Stellen Sie sicher, dass Ihr API -Konto aktiv ist und über ausreichende Quoten für Anfragen verfügt.
3. Konfigurieren und rufen Sie das Modell auf
Initialisieren Sie den Shopper, setzen Sie das Modell auf „Gemini-2,5-Flash-Picture-Preview“ und geben Sie eine relevante Eingabeaufforderung anhand der Inhaltsgenerierungsmethode des SDK weiter:
from google import genai
shopper = genai.Shopper()
immediate = "Create an image of a nano banana dish in a elaborate restaurant with a Gemini theme"
response = shopper.fashions.generate_content(
mannequin="gemini-2.5-flash-image-preview",
contents=(immediate),
)
4.. Analysieren und speichern Sie das generierte Bild
Iterieren Sie die Antwort, um nach Textual content- und Bildausgängen zu überprüfen, und speichern Sie das generierte Bild mit PIL:
from PIL import Picture
from io import BytesIO
for half in response.candidates.content material.components:
if half.textual content is just not None:
print(half.textual content)
elif half.inline_data is just not None:
picture = Picture.open(BytesIO(half.inline_data.knowledge))
picture.save("generated_image.png")
Verwenden Sie für den Zugriff über Google AI Studio einfach die „Construct -Modus“ in Google AI Studio hier. Einmal auf der Plattform können Sie einfach eine Eingabeaufforderung eingeben, um die Artwork der Bildgenerierung/ -bearbeitung basierend auf dem gewünschten Gemini 2.5 -Flash -Bild zu entwerfen. Denken Sie an Face-Swap oder Kleider-Swap.
Gemini Flash 2.5 Bild praktisch
Da die KI -Picture -Generierung, die Eingabeaufforderungen verwenden, ziemlich einfach ist, habe ich beschlossen, das neue Gemini Flash 2.5 -Bild in den USPS zu probieren, außer natürlich der grundlegenden Bildgenerierung. Schauen Sie sich die Ergebnisse selbst an:
1. Generieren neuer Bilder
Hier sind zwei Bilder, die ich mit Gemini 2.5 Professional Flash generiert habe. Einer von einem 25-jährigen Jungen aus den Hügeln von Himachal Pradesh und ein anderer eines Gaddi-Hundes. Hier sind die Eingabeaufforderungen:
Eingabeaufforderung 1: Geben Sie mir ein Porträtbild eines indischen Jungen im Alter von 25 Jahren aus Himachal Pradesh. Der Junge hat dichte, schwarze Haare und hellgrüne Augen und trägt ein tremendous kühles, festes weißes Hemd
Eingabeaufforderung 2: Geben Sie mir ein Porträtbild eines Pahadi -Gaddi -Hundes, schwarzer Farbe mit einem dicken Fell und einer größeren Größe im Vergleich zu einem normalen Straßenhund
Ausgabe:
Während die Ergebnisse eindeutig generiert erscheinen, würde ich Nano-Banana 10/10 für die Ergebnisse geben. Dies liegt einfach an der tremendous hohen Qualität der Bilder, der genauen Darstellungen der Eingabeaufforderung und der Tatsache, die ich in der Aufforderung nie erwähnt habe, die Bilder zu realistisch zu machen.
2. Zusammenführen von Bildern
Für die Konsistenz habe ich für den Relaxation von Assessments mit diesen beiden Bildern herumgespielt. Additionally bat ich das Modell, die beiden Bilder des Jungen und des Hundes in einem landschaftlichen Hintergrund zusammenzuführen. Hier ist die Eingabeaufforderung:
Immediate: Zeigen Sie dem Jungen und dem Hund, der in einem riesigen offenen Feld vor dem Hintergrund eines Flusses in einem Tal und schneebedeckten Bergen auf der anderen Seite des Flusses spielt
Ausgabe:
Es dauerte einige Zeit, bis das KI -Modell den Weg zur richtigen Ausgabe fand. Mit den ersten Ergebnissen, die ein wenig ausbreitend waren, gab es ein zu und nach Eingabeaufforderungen und Ergebnissen, bevor ich fand, wonach ich suchte. Aber als ich es tat, warfare ich beeindruckt! Alles bis zum letzten Element warfare so genau wie ich erwähnt und so ästhetisch, wie ich hätte fragen können.
3. Bildbearbeitung
Nach der Bildung und Fusion der Bild erfolgt der Bearbeitungsteil. Um diese auszuprobieren, habe ich zum ersten Mal das Bild von Gemini Flash 2.5 gefragt, um eine kleine Hütte in der malerischen Szene hinzuzufügen. Hier ist die Eingabeaufforderung:
Immediate: Zeigen Sie auf diesem Bild in einiger Entfernung einen kleinen Schuppen in der Nähe des Flusses
Ausgabe:
Makellose Ausführung im ersten Versuch. Es scheint offensichtlich, dass Google massiv an dem Nano-Banana gearbeitet hat, insbesondere in den Bereichen, in denen es hervorgehoben wird, um sie zu übertreffen.
4. Die Charakterkonsistenz beibehalten
Auf den härtesten Teil für Die meisten KI -Modelle. Ehrlich gesagt warfare ich ziemlich skeptisch gegenüber diesem einen USP. Natürlich warfare ich auch sehr aufgeregt, es auszuprobieren. Ich bat das Modell, die gesamte Einstellung im Bild in das eines Strandes zu ändern. Hier ist die Eingabeaufforderung:
Immediate: Zeigen Sie dem Jungen und dem Hund, der läuft, während er sich in einem Strand anstelle der aktuellen Umgebung befindet. Der Junge trägt jetzt Shorts und eine Weste und hat ein Tattoo über seiner linken Arm
Ausgabe:
Nichts kurzes als beeindruckend, Gemini 2.5 Flash Picture gelang es, einen ziemlich anständigen Job zu machen. Obwohl es wiederholte Versuche erforderte, zu einem ästhetischen Ergebnis zu gelangen, konnte das neue Bildmodell die Particulars des Jungen und des Hundes mit quick vollständiger Genauigkeit wiederholen. Wenn Sie genau hinschauen, ist der geringfügige Unterschied, den Sie bemerken werden, in der Frisur des Jungen. Ruhe sieht mir quick genau ähnlich wie in der vorherigen Einstellung. Ich habe sogar die Idee „Tattoo on One Arm“ ausprobiert, um zu sehen, wie Gemini es ausführt. Ich kann nur sagen, dass das Modell für eine intestine gemachte Arbeit ein großes Lob an das Modell ist!
5. Gebäude Gemini 2.5 Flash Picture Powered App
Um Gemini 2.5 Flash -Picture in einer App für die wiederholte Bildgenerierung und -bearbeitung zu testen, haben wir die folgende Eingabeaufforderung im „Construct -Modus“ von Google AI Studio verwendet
Immediate: Erstellen Sie einen Versuch in App, in dem Benutzer ihre Bilder hochladen und verschiedene Kleidung ausprobieren können, um zu sehen, wie sie darin aussehen.
Mit einer einzigen Reihe von Bildgeneration und Bearbeitung des neuen Gemini 2.5-Flash-Photographs sind die Updates und die erweiterten Funktionen für mich ziemlich deutlich. Was ich besonders begeistert bin, ist die neue Bildverführungsfähigkeit des Modells. Ich kann n-nummer von Szenarien voraussehen, in denen das für mich persönlich hilfreich sein kann. Was die meisten anderen Inhaltsersteller da draußen betrifft, erweist sich die Bildbearbeitung und die Charakterkonsistenz auf dem neuen Gemini 2.5-Flash-Picture als Sport-Changer.
Wir versuchen uns häufig mit solchen neuen KI -Modellen, um die Grenzen ihrer Fähigkeiten zu testen. Bleiben Sie additionally auf dem Laufenden, um mit dem neuesten in der Welt der KI aktualisiert zu werden.
Technischer Inhaltsstratege und Kommunikator mit einem Jahrzehnt Erfahrung in der Erstellung und Vertrieb von Inhalten in den nationalen Medien, der Regierung von Indien und privaten Plattformen
Melden Sie sich an, um weiter zu lesen und Experten-Kuratinhalte zu genießen.