Das letzte Mal, dass OpenAIs Chatgpt ein Bildgenerierungsmodell vorstellte, wurde es schnell viral im Web. Die Menschen waren fasziniert von der Fähigkeit zu schaffen Porträts im Ghibli-Stil von sich selbst, persönliche Erinnerungen in animierte Kunstwerke zu verwandeln. Jetzt geht ChatGPT einen Schritt weiter mit einem neuen nativ multimodalen Modell „GPT-Picture-1“, das die Bildgenerierung direkt innerhalb von ChatGPT versorgt und jetzt über API verfügbar ist. In diesem Artikel werden wir die wichtigsten Merkmale des GPT-Picture-1-Modells von OpenAI und die Verwendung für die Bildgenerierung und -bearbeitung untersuchen.
Was ist GPT-Picture-1?
GPT-Picture-1 ist das neueste und fortschrittlichste multimodale Sprachmodell von OpenAI. Es zeichnet sich aus, um hochwertige Bilder zu generieren und gleichzeitig das Wissen über reale Welt in den visuellen Inhalt einzubeziehen. Während GPT-Picture-1 für seine robuste Leistung empfohlen wird, unterstützt die Bild-API auch andere spezialisierte Modelle wie Dall · E 2 und Dall · e 3.

Die Bild -API bietet drei wichtige Endpunkte, die jeweils für bestimmte Aufgaben ausgelegt sind:
- Generationen: Erstellen Sie Bilder von Grund auf mit einer Textaufforderung.
- Änderungen: Ändern Sie vorhandene Bilder mithilfe einer neuen Eingabeaufforderung entweder teilweise oder vollständig.
- Variationen: Generieren Sie Variationen eines vorhandenen Bildes (nur mit Dall · e 2 verfügbar).

Lesen Sie auch: Imageen 3 gegen Dall-E 3: Welches ist das bessere Modell für Bilder?
Schlüsselmerkmale von GPT-Picture-1
GPT-Picture-1 bietet mehrere wichtige Funktionen:
- Excessive-Constancy-Bilder: Erzeugt detaillierte und genaue Bilder.
- Verschiedene visuelle Stile: Unterstützt eine Reihe von Ästhetik, von Foto realistisch bis abstrakt.
- Präzise Bildbearbeitung: Ermöglicht gezielte Modifikationen zu generierten Bildern.
- Reiches Weltwissen: Versteht komplexe Aufforderungen mit kontextbezogener Genauigkeit.
- Konsistente Textwiedergabe: Rendern Textual content in den Bildern zuverlässig.
Verfügbarkeit
Mit der OpenAI -API können Benutzer Bilder aus Texteingabeaufforderungen unter Verwendung der GPT -Picture oder Dall · e -Modelle generieren und bearbeiten. Derzeit ist die Bildgenerierung ausschließlich durch die Bild -API zugänglich, obwohl die Unterstützung für die Antworten -API aktiv entwickelt wird.
Weitere Informationen zu GPT-Picture-1-Klick Hier.
GPT-Picture-1-Preisgestaltung
Bevor Sie in die Verwendung und Bereitstellung des Modells eintauchen, ist es wichtig, die Preisgestaltung zu verstehen, um die effektive und budgetbewusste Verwendung zu gewährleisten.
Das GPT-Picture-1-Modell kostet professional Token mit unterschiedlichen Raten für Textual content- und Bild-Token:
- Texteingangs -Token (Eingabeaufforderungen): $ 5 professional 1 m Tokens
- Bildeingangs -Token (hochgeladene Bilder): $ 10 professional 1 m Tokens
- Bildausgabe -Token (generierte Bilder): $ 40 professional 1 m Tokens
In praktischer Hinsicht entspricht dies ungefähr:
- ~ $ 0.02 für ein quadratisches Bild von geringer Qualität
- ~ $ 0.07 für ein quadratisches Bild mittelgroß
- ~ 0,19 USD für ein hochwertiges quadratisches Bild
Weitere detailliertere Preise nach Bildqualität und -auflösung finden Sie auf der offiziellen Preisseite Hier.

Notiz: Dieses Modell generiert Bilder, indem zuerst spezielle Bildtoken erstellt werden. Daher hängen sowohl die Latenz als auch die Gesamtkosten von der Anzahl der verwendeten Token ab. Größere Bildabmessungen und Einstellungen mit höherer Qualität erfordern mehr Token, wodurch sowohl die Zeit als auch die Kosten erhöht werden.
Wie kann man GPT-Picture-1 zugreifen?
So generieren Sie den API-Schlüssel für GPT-Picture-1:
- Melden Sie sich bei der OpenAI -Plattform an
- Gehen Sie zu Mission> API -Schlüssel
- Überprüfen Sie Ihr Konto
Zuerst besuchen Sie: https://platform.openai.com/setings/group/basic. Klicken Sie dann auf „Organisation überprüfen“, um den Überprüfungsprozess zu starten. Es ist ähnlich wie bei jeder KYC -Überprüfung, bei der abhängig vom Land aufgefordert wird, eine Foto -ID hochzuladen und sie dann mit einem Selfie zu überprüfen.
Sie können folgen Diese Dokumentation bereitgestellt von Open AI, um den Überprüfungsprozess besser zu verstehen.
Lesen Sie auch: Wie benutze ich Dall-e 3 API für die Bildgenerierung?
GPT-Picture-1: praktische Anwendung
Schließlich ist es Zeit zu sehen, wie wir Bilder mit der GPT-Picture-1-API generieren können.
Wir werden die verwenden Endpunkt der Bildgenerierung So erstellen Sie Bilder basierend auf Texteingabeaufforderungen. Standardmäßig gibt die API ein einzelnes Bild zurück, aber wir können den N -Parameter festlegen, um mehrere Bilder gleichzeitig in einer einzelnen Anforderung zu generieren.
Bevor wir unseren Hauptcode ausführen, müssen wir zuerst den Code für die Set up ausführen und die Umgebung einrichten.
!pip set up openai
import os
os.environ('OPENAI_API_KEY') = "<your-openai-api-key>"
Bilder mit GPT-Picture-1 generieren
Versuchen wir nun, ein Bild mit diesem neuen Modell zu generieren.
Eingabescode:
from openai import OpenAI
import base64
shopper = OpenAI()
immediate = """
A serene, peaceable park scene the place people and pleasant robots are having fun with the
day collectively - some are strolling, others are taking part in video games or sitting on benches
underneath bushes. The ambiance is heat and harmonious, with smooth daylight filtering
by means of the leaves.
"""
consequence = shopper.photographs.generate(
mannequin="gpt-image-1",
immediate=immediate
)
image_base64 = consequence.information(0).b64_json
image_bytes = base64.b64decode(image_base64)
# Save the picture to a file
with open("utter_bliss.png", "wb") as f:
f.write(image_bytes)
Ausgabe:

Bearbeiten von Bildern mit GPT-Picture-1
GPT-Picture-1 bietet eine Reihe von Bildbearbeitungsoptionen. Das Bild bearbeitet Endpunkt lässt uns:
- Bestehende Bilder bearbeiten
- Generieren Sie neue Bilder mit anderen Bildern als Referenz
- Bearbeiten Sie Teile eines Bildes, indem Sie ein Bild und eine Maske hochladen, um anzugeben, welche Bereiche ersetzt werden sollen (ein Prozess, der als Inpacking bekannt ist)
Bearbeiten eines Bildes mit einer Maske
Versuchen wir, ein Bild mit einer Maske zu bearbeiten. Wir werden ein Bild hochladen und eine Maske bereitstellen, um anzugeben, welche Teile davon bearbeitet werden sollen.

Die transparenten Bereiche der Maske werden basierend auf der Eingabeaufforderung ersetzt, während die farbigen Bereiche unverändert bleiben.
Lassen Sie mich nun das Modell bitten, Elon Musk zu meinem hochgeladenen Bild hinzuzufügen.
Eingabescode:
from openai import OpenAI
shopper = OpenAI()
consequence = shopper.photographs.edit(
mannequin="gpt-image-1",
picture=open("/content material/analytics_vidhya_1024.png", "rb"),
masks=open("/content material/mask_alpha_1024.png", "rb"),
immediate="Elon Musk standing in entrance of Firm Brand"
)
image_base64 = consequence.information(0).b64_json
image_bytes = base64.b64decode(image_base64)
# Save the picture to a file
with open("Elon_AV.png", "wb") as f:
f.write(image_bytes)
Ausgabe:

Zieh zu beachten, während ein Bild mit GPT-Picture-1 bearbeitet wird:
- Das Bild, das Sie bearbeiten möchten, und die entsprechende Maske muss im gleichen Format und in derselben Abmessungen sein, und jeder sollte weniger als 25 MB an Größe haben.
- Die Eingabeaufforderung, die Sie geben, kann verwendet werden, um das gesamte neue Bild zu beschreiben, nicht nur der Teil, der bearbeitet wird.
- Wenn Sie mehrere Eingangsbilder angeben, wird die Maske nur auf das erste Bild angewendet.
- Das Maskenbild muss einen Alpha -Kanal enthalten. Wenn Sie ein Bildbearbeitungswerkzeug verwenden, um die Maske zu erstellen, stellen Sie sicher, dass es mit einem aktivierten Alpha -Kanal gespeichert wird.
- Wenn Sie ein Schwarz-Weiß-Bild haben, können Sie ein Programm verwenden, um einen Alpha-Kanal hinzuzufügen und es in eine gültige Maske zu konvertieren, wie unten angegeben:
from PIL import Picture
from io import BytesIO
# 1. Load your black & white masks as a grayscale picture
masks = Picture.open("/content material/analytics_vidhya_masked.jpeg").convert("L")
# 2. Convert it to RGBA so it has house for an alpha channel
mask_rgba = masks.convert("RGBA")
# 3. Then use the masks itself to fill that alpha channel
mask_rgba.putalpha(masks)
# 4. Convert the masks into bytes
buf = BytesIO()
mask_rgba.save(buf, format="PNG")
mask_bytes = buf.getvalue()
# 5. Save the ensuing file
img_path_mask_alpha = "mask_alpha.png"
with open(img_path_mask_alpha, "wb") as f:
f.write(mask_bytes)
Greatest Practices für die Verwendung des Modells
Hier sind einige Tipps und Greatest Practices, denen Sie bei der Verwendung von GPT-Picture-1 zum Generieren oder Bearbeiten von Bildern folgen müssen.
- Sie können anpassen, wie Ihr Bild aussieht, indem Sie Optionen wie Größe, Qualität, Dateiformat, Komprimierungsstufe und ob der Hintergrund clear ist oder nicht. Diese Einstellungen helfen Ihnen bei der Steuerung der endgültigen Ausgabe, die Ihren spezifischen Anforderungen entspricht.
- Für schnellere Ergebnisse gehen Sie mit quadratischen Bildern (1024 × 1024) und der Standardqualität. Sie können auch Porträt (1536 × 1024) oder Landschaftsformate (1024 × 1536) auswählen. Die Qualität kann auf niedrig, mittel oder hoch und sowohl die Größe als auch die Qualität des Requirements für automatisch eingestellt werden, wenn nicht angegeben.
- Beachten Sie, dass die Bild-API die Basis64-kodierten Bilddaten zurückgibt. Das Standardformat ist PNG, aber wir können es auch in JPEG oder WebP anfordern.
- Wenn Sie JPEG oder WebP verwenden, können Sie auch den Parameter output_compression angeben, um die Komprimierungsstufe (0-100%) zu steuern. Zum Beispiel wird Output_Compression = 50 das Bild um 50percentkomprimieren.
Anwendungen von GPT-Picture-1
GPT-Picture-1 hat eine breite Palette von Anwendungen.
- Spiele: Inhaltserstellung, Sprite -Masken, dynamische Hintergründe, Charaktergenerierung, Konzeptkunst
- Kreative Werkzeuge: Paintings -Generierung, Stilübertragung, Designprototyping, visuelles Geschichtenerzählen
- Ausbildung: visuelle Hilfsmittel, historische Erholungen, interaktive Lerninhalte, Konzeptvisualisierung
- Unternehmenssoftware: Folie-Visuals, Berichtsabbildungen, Daten zu Picture-Bild-Erzeugung, Branding-Vermögenswerte
- Werbung & Advertising: Kampagnen -Visuals, Social -Media -Grafiken, lokalisierte Inhaltserstellung
- Gesundheitspflege: Medizinische Illustration, Visualscan -Scan -Scan, synthetische Bilddaten für das Modelltraining
- Architektur & Immobilien: Innenmodelle, Außendrenderungen, Structure -Vorschau, Renovierungsideen
- Unterhaltung & Medien: Szenenkonzepte, Werbematerial, digitale Doppel
Einschränkungen von GPT-Picture-1
Das GPT-4O-Bildmodell ist ein leistungsstarkes und vielseitiges Werkzeug für die Bildgenerierung, aber es gibt noch einige Einschränkungen:
- Latenz: Die Bearbeitung kann bis zu 2 Minuten dauern.
- Textrendern: Obwohl das Modell wesentlich besser als die Dall · E -Modelle, kann es immer noch Herausforderungen mit präziser Textausrichtung und Klarheit haben.
- Konsistenz: Obwohl es visuell konsistente Bilder erzeugen kann, kann das Modell gelegentlich Schwierigkeiten haben, die Gleichmäßigkeit für wiederkehrende Zeichen oder Markenelemente über mehrere Bilder hinweg aufrechtzuerhalten.
- Kompositionskontrolle: Selbst mit verbesserten Funktionen für Anweisungen platziert das Modell möglicherweise nicht immer Elemente in strukturierten oder layoutempfindlichen Designs.
Modellvergleich
So ist das GPT-Picture-1 von OpenAI mit den beliebten Dall · e-Modellen:
| Modell | Endpunkte | Merkmale |
| Dall · e 2 | Generationen, Änderungen, Variationen | Niedrigere Kosten, unterstützt gleichzeitige Anfragen, umfasst die Inpackfunktionen |
| Dall · e 3 | Nur Generationen | Höhere Auflösung und bessere Bildqualität als Dall · e 2 |
| GPT-Picture-1 | Generationen, Änderungen (Antworten API, die bald kommt) | Ausgezeichnete Anweisungen, detaillierte Änderungen, Bewusstsein in der Praxis |
Abschluss
OpenAIs GPT-Picture-1 zeigt leistungsstarke Bildgenerierungsfunktionen mit Unterstützung für die Erstellung, Bearbeitung und Variationen, die alle aus einfachen Textanforderungen stammen. Während die Era von Bildern einige Zeit in Anspruch nehmen kann, machen die Qualität und die Kontrolle, die sie bietet, es insgesamt sehr praktisch und lohnend.
Modelle für Bildgenerierung wie diese ermöglichen die Erstellung, Personalisierung und das schnellere Prototyping inhaltlicher Inhalte. Mit integrierten Anpassungsoptionen für Größe, Qualität, Format usw. und sogar Einlackierungsfunktionen bietet GPT-Picture-1 Entwicklern die vollständige und transparente Kontrolle über die gewünschte Ausgabe.
Während einige befürchten, dass diese Technologie die menschliche Kreativität ersetzen könnte, ist es wichtig zu beachten, dass solche Instruments darauf abzielen, die menschliche Kreativität zu verbessern und hilfreiche Instrumente für Künstler zu sein. Obwohl wir die Originalität definitiv respektieren sollten, müssen wir auch die Bequemlichkeit, die diese Technologie mit sich bringt, einnehmen. Wir müssen das richtige Gleichgewicht finden, in dem solche Instruments uns helfen, innovativ zu sein, ohne den Wert der authentischen, von Menschen hergestellten Arbeiten wegzunehmen.
Melden Sie sich an, um weiter zu lesen und Experten-Kuratinhalte zu genießen.
