Nano Banana Professional, Auch Gemini 3 Professional Picture genannt, ist das neue Bildgenerierungs- und Bearbeitungsmodell von Google DeepMind, das auf Gemini 3 Professional basiert. Es ist als hochmodernes System zum Erstellen und Bearbeiten von Bildern positioniert, bei dem Struktur, Weltwissen und Textlayout berücksichtigt werden müssen, nicht nur der Stil. Nano Banana Professional folgt auf Nano Banana, das auf Gemini 2.5 Flash Picture basierte und sich auf schnelle, einfache Bildbearbeitung wie das Wiederherstellen von Fotos und das Erstellen von Figuren konzentrierte.

Vom Gemini 2.5 Flash Picture zum Gemini 3 Professional Picture

Das frühere Nano Banana-Modell zielte auf schnelle kreative Bearbeitungen für Gelegenheitskünstler ab. Es half dabei, alte Fotos wiederherzustellen und mit einer einfachen Eingabeaufforderung stilisierte 3D-Minifiguren zu bauen. Nano Banana Professional behält diesen Bearbeitungsfluss bei, läuft aber auf Gemini 3 Professional, was stärkere Argumentation und reales Wissen in den Bildstapel bringt.

Das Modell kann Prototypen, Datentabellen und handschriftliche Notizen in Diagramme und Infografiken umwandeln, die die zugrunde liegenden Informationen widerspiegeln, anstatt nur dekorative Kunst zu produzieren.

Angeleitete Argumentation, Suche nach fundierten Bildern

Ein zentraler Designpunkt für Nano Banana Professional ist die folgerungsgesteuerte Generierung. Mit Gemini 3 Professional kann das Modell Textual content, strukturierte Inhalte und Referenzen konsumieren und dann das Bild als Erklärung für diesen Inhalt planen. Nano Banana Professional kann auch eine Verbindung zur Google-Suche herstellen und den Suchindex als Echtzeit-Wissensquelle nutzen.

Klarer Textual content und mehrsprachige Layouts

Textual content in Bildern ist für viele diffusionsbasierte Generatoren ein seit langem bestehender Fehlermodus. Nano Banana Professional geht hierauf ausdrücklich ein. Google gibt an, dass es das beste Modell in der Gemini-Familie ist, um Bilder mit korrekt wiedergegebenem und lesbarem Textual content zu erstellen, sowohl für kurze Slogans als auch für ganze Absätze.

Die mehrsprachige Argumentation von Gemini 3 Professional fließt in das Bildmodell ein. Nano Banana Professional kann Textual content in mehreren Sprachen rendern und auch Texte übersetzen, die bereits in Produkten oder Postern erscheinen. Die Dokumentation zeigt Getränkedosen, bei denen der englische Textual content ins Koreanische übersetzt wird, während die visuelle Gestaltung und das Structure unverändert bleiben.

Kontrolle, Konsistenz und Hochskalierung auf Studioebene

Nano Banana Professional bietet eine Reihe von Steuerelementen, die auf Design- und Produktionsabläufe abzielen und nicht auf Eingabeaufforderungen für Einzelaufnahmen. Auf der Kompositionsseite kann das Modell bis zu 14 Eingabebilder verwenden und die Konsistenz und Ähnlichkeit von bis zu 5 Personen in einem Arbeitsablauf beibehalten. Dies unterstützt Aufgaben wie das Kombinieren von Referenzfotos zu einem einzigen Mode-Editorial, das Umwandeln von Skizzen in Produktaufnahmen oder das Beibehalten derselben Besetzung über mehrere Szenen hinweg.

Im Abschnitt „Studio-Steuerung“ der Modellseite sind mehrere Steuerelementfamilien aufgeführt. Benutzer können den Kamerawinkel und die Aufnahmeart variieren, einschließlich Weitwinkelaufnahme, Panorama und Nahaufnahme, und gleichzeitig die Schärfentiefe und den Fokus auf bestimmte Motive im Bild steuern. Farbe und Beleuchtung können angepasst werden, indem beispielsweise Tag und Nacht geändert, volumetrische Beleuchtung durch Bokeh ersetzt oder ein starker Hell-Dunkel-Effekt angewendet werden, ohne dass die Identität des Motivs verloren geht.

Nano Banana Professional unterstützt explizites Upscaling. Im offiziellen Google-Weblog heißt es, dass es gestochen scharfe Bilder mit einer Auflösung von 1K, 2K oder 4K erzeugen kann, und bietet Beispiele für progressive Zoomvorgänge, bei denen Particulars und Komposition erhalten bleiben. Das Seitenverhältnis ist ebenfalls programmierbar. Eingabeaufforderungen können zwischen Verhältnissen wie 1:1, 4:3, 16:9 und Kinoformaten konvertieren, wobei die Hauptfigur an ihrem Platz bleibt und nur der Hintergrund angepasst wird.

Wichtige Erkenntnisse

  • Nano Banana Professional ist Gemini 3 Professional Picture, ein verbessertes Modell zur Bilderzeugung und -bearbeitung, das den Nachfolger von Nano Banana ablöst, das auf Gemini 2.5 Flash Picture basierte und für höhere Qualität und Kontrolle optimiert ist.
  • Das Modell integriert die Argumentation von Gemini 3 Professional und die Google-Suche, sodass es sachliche Inhalte, Dokumente und Echtzeitdaten in Infografiken, Rezepte, Prozessdiagramme und andere informationsreiche visuelle Darstellungen umwandeln kann.
  • Es bietet eine starke Textwiedergabe und mehrsprachige Unterstützung, erzeugt lesbare Typografie in Bildern und ermöglicht die Übersetzung oder Lokalisierung von im Bild vorhandenen Texten unter Beibehaltung von Structure und Design.
  • Nano Banana Professional unterstützt bis zu 14 Eingabebilder und behält die Ähnlichkeit für bis zu 5 Personen bei, mit Steuerungen im Studiostil für Kamerawinkel, Schärfentiefe, Beleuchtung, Seitenverhältnisse und Hochskalierung auf 1k-, 2k- und 4k-Auflösungen.
  • Das Modell wird in der Gemini-App, im AI-Modus in der Suche, in NotebookLM, Google Advertisements, Workspace-Apps, Gemini API, Google AI Studio, Vertex AI, Antigravity und Move eingesetzt, wobei alle Ausgaben mit SynthID und stufenspezifischen sichtbaren Wasserzeichen mit Wasserzeichen versehen werden.

Nano Banana Professional positioniert Gemini 3 Professional Picture als produktionsorientiertes Bildsystem, das die Argumentation von Gemini 3 Professional, die Google-Suche und strukturierte Steuerelemente für Structure, Textual content und Hochskalierung verbindet. Es geht direkt auf langjährige Probleme bei der Textwiedergabe, der mehrsprachigen Lokalisierung und der Themenkonsistenz ein und behält gleichzeitig SynthID und sichtbare Wasserzeichen als Standardherkunftssignale über Ebenen und Oberflächen hinweg bei. Mit dieser Einführung rückt Googles Bilderstapel näher an eine integrierte, API-basierte visuelle Plattform für Entwickler und Unternehmen heran.


Schauen Sie sich das an Technische Particulars. Schauen Sie sich gerne bei uns um GitHub-Seite für Tutorials, Codes und Notebooks. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 100.000+ ML SubReddit und Abonnieren Unser Publication. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.


Michal Sutter ist ein Information-Science-Experte mit einem Grasp of Science in Information Science von der Universität Padua. Mit einer soliden Grundlage in statistischer Analyse, maschinellem Lernen und Datentechnik ist Michal hervorragend darin, komplexe Datensätze in umsetzbare Erkenntnisse umzuwandeln.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert