Googles Nano-Banana hat gerade eine neue Ära der Bildgenerierung freigeschaltet

Bild von Autor | Gemini (Nano-Banana-Selbstporträt)

# Einführung

Die Bildgenerierung mit generativer KI ist sowohl für Einzelpersonen als auch für Unternehmen zu einem weit verbreiteten Instrument geworden, sodass sie ihre beabsichtigten Bilder sofort erstellen können, ohne dass ein Designkompetenz erforderlich ist. Im Wesentlichen können diese Instruments Aufgaben beschleunigen, die sonst viel Zeit in Anspruch nehmen und sie in nur Sekunden erledigen würden.

Mit dem Fortschreiten von Technologie und Wettbewerb wurden viele moderne Produkten für fortschrittliche Bildgenerierung veröffentlicht, wie z. Stabile DiffusionAnwesend MidjourneyAnwesend Dall-eAnwesend Bildund viele mehr. Jeder bietet seinen Benutzern einzigartige Vorteile. Google hatte jedoch kürzlich einen erheblichen Einfluss auf die Landschaftslandschaft mit der Veröffentlichung von Gemini 2.5 Blitzbild (oder Nano-Banana).

Nano-Banana ist Googles erweitertes Bildgenerierungs- und -bearbeitungsmodell mit Funktionen wie realistischer Bilderstellung, mehrfacher Bildmischung, Charakterkonsistenz, gezielten prompt-basierten Transformationen und öffentlicher Zugänglichkeit. Das Modell bietet eine weitaus größere Kontrolle als frühere Modelle von Google oder seinen Konkurrenten.

In diesem Artikel wird die Fähigkeit von Nano-Banana untersucht, Bilder zu generieren und zu bearbeiten. Wir werden diese Funktionen mit dem demonstrieren Google AI Studio Plattform und die Gemini API Innerhalb einer Python -Umgebung.

Lass uns darauf eingehen.

# Testen des Nano-Banana-Modells

Um diesem Tutorial zu folgen, müssen Sie sich für ein Google -Konto registrieren und sich bei Google AI Studio anmelden. Sie müssen auch eine erwerben API -Schlüssel Um die Gemini -API zu verwenden, die einen bezahlten Plan benötigt, da keine kostenlose Stufe verfügbar ist.

Wenn Sie es vorziehen, die API mit Python zu verwenden Google Generative AI Bibliothek mit dem folgenden Befehl:

Sobald Ihr Konto eingerichtet ist, werden wir untersuchen, wie Sie das Nano-Banana-Modell verwenden.

Navigieren Sie zuerst zu Google AI Studio und wählen Sie die aus Gemini-2.5-flash-image-preview Modell, das Nano-Banana-Modell, das wir verwenden werden.

Nano Banana ai

Mit dem ausgewählten Modell können Sie einen neuen Chat starten, um ein Bild von einer Eingabeaufforderung zu generieren. Wie Google vorschlägt, ist ein grundlegendes Prinzip, um die besten Ergebnisse zu erzielen Beschreiben Sie die Szene, nicht nur Key phrases auflisten. Dieser narrative Ansatz, der das Bild beschreibt, das Sie sich vorstellen, führt typischerweise überlegene Ergebnisse.

In der AI Studio -Chat -Oberfläche sehen Sie eine Plattform wie die unten, auf der Sie Ihre Eingabeaufforderung eingeben können.

Nano Banana ai

Wir werden die folgende Aufforderung verwenden, um ein fotorealistisches Bild für unser Beispiel zu generieren.

Ein fotorealistisches Nahaufnahmeporträt eines indonesischen Batik-Handwerkers, das mit Wachs befleckt ist und ein fließendes Motiv auf Indigo-Stoff mit einem Canting-Stift verfolgt. Sie arbeitet an einem hölzernen Tisch in einer luftigen Veranda; Faltete Textilien und Farbstoffe verwischen hinter sich. Das Fenster mit spätem Morgen rennt über den Stoff und enthüllt feine Wachslinien und das Korn des Teaks. Auf einem 85 mm bei f/2 für sanfte Trennung und cremiges Bokeh eingefangen. Die allgemeine Stimmung ist konzentriert, taktil und stolz.

Das generierte Bild ist unten dargestellt:

Nano Banana ai

Wie Sie sehen können, ist das erzeugte Bild realistisch und haftet treu an der angegebenen Eingabeaufforderung. Wenn Sie die Python -Implementierung bevorzugen, können Sie den folgenden Code zum Erstellen des Bildes verwenden:

from google import genai
from google.genai import sorts
from PIL import Picture
from io import BytesIO
from IPython.show import show 

# Substitute 'YOUR-API-KEY' together with your precise API key
api_key = 'YOUR-API-KEY'
shopper = genai.Consumer(api_key=api_key)

immediate = "A photorealistic close-up portrait of an Indonesian batik artisan, arms stained with wax, tracing a flowing motif on indigo material with a canting pen. She works at a wood desk in a breezy veranda; folded textiles and dye vats blur behind her. Late-morning window mild rakes throughout the material, revealing nice wax traces and the grain of the teak. Captured on an 85 mm at f/2 for light separation and creamy bokeh. The general temper is concentrated, tactile, and proud."

response = shopper.fashions.generate_content(
    mannequin="gemini-2.5-flash-image-preview",
    contents=immediate,
)

image_parts = (
    half.inline_data.information
    for half in response.candidates(0).content material.components
    if half.inline_data
)

if image_parts:
    picture = Picture.open(BytesIO(image_parts(0)))
    # picture.save('your_image.png')
    show(picture)

Wenn Sie Ihren API -Schlüssel und die gewünschte Eingabeaufforderung angeben, generiert der obige Python -Code das Bild.

Wir haben gesehen, dass das Nano-Banana-Modell ein fotorealistisches Bild erzeugen kann, aber seine Stärken erstrecken sich weiter. Wie bereits erwähnt, ist Nano-Banana besonders mächtig für die Bildbearbeitung, die wir als nächstes untersuchen werden.

Versuchen wir es mit der sofortigen Bildbearbeitung mit dem gerade generierten Bild. Wir werden die folgende Eingabeaufforderung verwenden, um das Erscheinungsbild des Handwerkers leicht zu verändern:

Legen Sie mit dem bereitgestellten Bild eine dünne Lesebrille sanft auf die Nase des Handwerkers, während sie die Wachslinien zeichnet. Stellen Sie sicher, dass Reflexionen realistisch aussehen und die Brille natürlich auf ihrem Gesicht sitzen, ohne ihre Augen zu verdecken.

Das resultierende Bild ist unten dargestellt:

Nano Banana ai

Das obige Bild ist identisch mit dem ersten, aber mit einer Brille, die in das Gesicht des Handwerkers hinzugefügt wird. Dies zeigt, wie Nano-Banana ein Bild basierend auf einer beschreibenden Eingabeaufforderung bearbeiten kann und gleichzeitig die allgemeine Konsistenz beibehält.

Um dies mit Python zu tun, können Sie Ihr Basisbild und eine neue Eingabeaufforderung mit dem folgenden Code bereitstellen:

from PIL import Picture

# This code assumes 'shopper' has been configured from the earlier step
base_image = Picture.open('/path/to/your/photograph.png')
edit_prompt = "Utilizing the offered picture, place a pair of skinny studying glasses gently on the artisan's nostril..."


response = shopper.fashions.generate_content(
    mannequin="gemini-2.5-flash-image-preview",
    contents=(edit_prompt, base_image))

Lassen Sie uns als nächstes die Konsistenz des Charakters testen, indem wir eine neue Szene generieren, in der der Handwerker direkt in die Kamera schaut und lächelt:

Generieren Sie ein neues und fotorealistisches Bild mit dem bereitgestellten Bild als Referenz für die Identität: Der gleiche Batik -Handwerker schaut jetzt mit einem entspannten Lächeln in die Kamera auf, das am selben Holztisch sitzt. Mittelgroße Nahaufnahme, 85 mm Look mit weicher Veranda-Licht, Hintergrundgläser verschwommen.

Das Bildergebnis ist unten gezeigt.

Nano Banana ai

Wir haben die Szene erfolgreich verändert und gleichzeitig die Charakterkonsistenz beibehalten. Um eine drastischere Änderung zu testen, verwenden wir die folgende Eingabeaufforderung, um zu sehen, wie Nano-Banana funktioniert.

Erstellen Sie ein Produkt im Produktstil mit dem bereitgestellten Bild als Identitätsreferenz: Das gleiche Handwerker, das ein fertiges Indigo-Batik-Tuch präsentiert, die in Richtung Kamera erstreckt werden. Weiches, sogar Fensterlicht, 50 mm Look, neutraler Hintergrund -Unordnung.

Das Ergebnis ist unten gezeigt.

Nano Banana ai

Das resultierende Bild zeigt eine völlig andere Szene, behält jedoch den gleichen Charakter bei. Dies unterstreicht die Fähigkeit des Modells, aus einem einzigen Referenzbild realistisch unterschiedliche Inhalte zu erzeugen.

Versuchen wir als nächstes den Picture -Type -Switch. Wir werden die folgende Aufforderung verwenden, um das fotorealistische Bild in ein Aquarellmalerei zu ändern.

Verwenden Sie mit dem bereitgestellten Bild als Identitätsreferenz die Szene als zarte Aquarell für Kaltdruckpapier: Lose Indigo-Wäsche für das Tuch, weiche Blutungskanten am Blumenmotiv, blasse Umber für den Tisch und den Hintergrund. Halten Sie ihre Pose den Stoff, das sanfte Lächeln und die runde Brille; Lassen Sie die Veranda zu einer leichten Granulation und der sichtbaren Papierstruktur zurückgehen.

Das Ergebnis ist unten gezeigt.

Nano Banana ai

Das Bild zeigt, dass der Stil in Aquarell umgewandelt wurde und gleichzeitig das Subjekt und die Zusammensetzung des Originals erhalten.

Zuletzt werden wir Picture Fusion versuchen, wo wir ein Objekt von einem Bild in ein anderes hinzufügen. In diesem Beispiel habe ich ein Bild von einem Frauhut mit Nano-Banana generiert:

Nano Banana ai

Mit dem Bild des Hutes werden wir es nun mit der folgenden Eingabeaufforderung auf den Kopf des Handwerkers platzieren:

Bewegen Sie die gleiche Frau und posieren Sie im Freien im offenen Schatten und legen Sie den Strohhut aus dem Produktbild auf ihren Kopf. Die Krone ausrichten und realistisch an den Kopf rufen; Beugen Sie sich über ihr rechtes Ohr (Kamera nach hyperlinks), Bandschwänze, die sanft mit Schwerkraft driften. Verwenden Sie weiches Himmelslicht als Schlüssel mit einem sanften Rand aus dem hellen Hintergrund. Behalten Sie den wahren Stroh- und Spitzentextur, einen natürlichen Hautton und einen glaubwürdigen Schatten vom Rand über der Stirn und der Oberseite der Brille bei. Halten Sie das Batik -Tuch und ihre Hände unverändert. Halten Sie den Aquarellstil unverändert.

Dieser Prozess verschmilzt das Hutfoto mit dem Basisbild, um ein neues Bild mit minimalen Änderungen an Pose und Gesamtstil zu erzeugen. Verwenden Sie in Python den folgenden Code:

from PIL import Picture

# This code assumes 'shopper' has been configured from step one
base_image = Picture.open('/path/to/your/photograph.png')
hat_image = Picture.open('/path/to/your/hat.png')
fusion_prompt = "Transfer the identical girl and pose outside in open shade and place the straw hat..."

response = shopper.fashions.generate_content(
    mannequin="gemini-2.5-flash-image-preview",
    contents=(fusion_prompt, base_image, hat_image))

Verwenden Sie für die besten Ergebnisse maximal drei Eingangsbilder. Wenn Sie mehr verwenden, können die Produktionsqualität verringert werden.

Dies deckt die Grundlagen der Verwendung des Nano-Banana-Modells ab. Meiner Meinung nach zeichnet sich dieses Modell aus, wenn Sie vorhandene Bilder haben, die Sie transformieren oder bearbeiten möchten. Es ist besonders nützlich, um die Konsistenz in einer Reihe von erzeugten Bildern aufrechtzuerhalten.

Probieren Sie es selbst aus und haben Sie keine Angst zu iterieren, da Sie beim ersten Versuch oft nicht das perfekte Bild erhalten.

# Einpacken

Gemini 2.5 Flash Picture oder Nano-Banana ist das neueste Bildgenerierungs- und Bearbeitungsmodell von Google. Es verfügt über leistungsstarke Funktionen im Vergleich zu früheren Bildgenerierungsmodellen. In diesem Artikel haben wir untersucht, wie Nano-Banana verwendet wird, um Bilder zu generieren und zu bearbeiten, wodurch die Funktionen zur Aufrechterhaltung von Konsistenz und die Anwendung stilistischer Änderungen hervorgehoben werden.

Ich hoffe das battle hilfreich!

Cornellius Yudha Wijaya ist ein Information Science Assistant Supervisor und Datenautor. Während er in Vollzeit bei Allianz Indonesien arbeitet, liebt er es, Python- und Datentipps über soziale Medien und das Schreiben von Medien zu teilen. Cornellius schreibt über eine Vielzahl von KI- und maschinellen Lernthemen.

Googles Nano-Banana hat gerade eine neue Ära der Bildgenerierung freigeschaltet

# Einführung

# Testen des Nano-Banana-Modells

# Einpacken

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Alles über Function Shops – KDnuggets

Audiodatenerfassung für ASR (Automatische Spracherkennung): Greatest Practices und Methoden

Selbstgehostete KI: Eine vollständige Roadmap für Anfänger

Google DeepMind schlägt ein neues Framework für die Delegation intelligenter KI vor, um das aufstrebende Agentic Internet für zukünftige Volkswirtschaften zu sichern

About

Categories

Tags

Recent Post

Alles über Function Shops – KDnuggets

Audiodatenerfassung für ASR (Automatische Spracherkennung): Greatest Practices und Methoden

# Einführung

# Testen des Nano-Banana-Modells

# Einpacken

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt