Stability.ai hat Steady Diffusion 3.5 mit mehreren Varianten vorgestellt: Steady Diffusion 3.5 Giant, Giant Turbo und Medium. Diese Modelle sind anpassbar und können auf Shopper-{Hardware} ausgeführt werden. Lassen Sie uns diese Modelle erkunden, lernen, wie man auf sie zugreift und sie als Schlussfolgerungen verwendet, um zu sehen, was Steady Diffusion dieses Mal zu bieten hat.
Überblick
- Verfügbarkeit: Die Modelle können von Hugging Face heruntergeladen werden. Zugriff über verschiedene Plattformen wie Stability AIs API, Replicate und andere.
- Sicherheit und Schutz: Stability AI hat Sicherheitsprotokolle implementiert, die darauf ausgelegt sind, potenziellen Missbrauch zu minimieren. Diese Maßnahmen gewährleisten einen verantwortungsvollen Umgang und die Sicherheit der Benutzer.
- Zukünftige Verbesserungen: Die Pläne umfassen ControlNet-Unterstützung, die eine erweiterte und präzisere Kontrolle über den Bilderzeugungsprozess ermöglicht.
- Plattformflexibilität: Benutzer können auf diese Modelle auf verschiedenen Plattformen zugreifen und sie in ihre Arbeitsabläufe integrieren, was für Flexibilität bei der Verwendung sorgt.
Stabile Diffusion 3.5-Modelle
Steady Diffusion 3.5 bietet eine Reihe von Modellen:
- Stabile Diffusion 3,5 groß: Mit 8,1 Milliarden Parametern bietet dieses Flaggschiffmodell erstklassige Qualität und schnelle Haftung und ist damit das leistungsstärkste Modell der Steady Diffusion-Reihe. Es ist für professionelle Anwendungen mit einer Auflösung von 1 Megapixel optimiert.
- Stabile Diffusion 3,5 großer Turbo: Dieses Modell ist eine optimierte Model von Steady Diffusion 3.5 Giant und erzeugt in nur 4 Schritten hochwertige Bilder mit ausgezeichneter Soforthaftung und bietet eine deutlich schnellere Leistung als das Standardmodell Giant.
- Stabiles Diffusionsmedium 3,5: Mit 2,5 Milliarden Parametern und der verbesserten MMDiT-X-Architektur ist dieses Modell für den nahtlosen Einsatz auf Shopper-{Hardware} konzipiert. Es vereint Qualität mit Anpassungsflexibilität und unterstützt die Bilderzeugung mit einer Auflösung von 0,25 bis 2 Megapixeln.
Die Modelle können leicht an die Bedürfnisse angepasst werden und sind für Verbraucherhardware optimiert, einschließlich der Modelle Steady Diffusion 3.5 Medium und Giant Turbo, die eine hochwertige Ausgabe bei minimalem Ressourcenbedarf bieten. Das 3,5-Medium-Modell benötigt 9,9 GB VRAM (ohne Textual content-Encoder) und gewährleistet so eine umfassende Kompatibilität mit den meisten GPUs.
Vergleich mit anderen Modellen
Der Steady Diffusion 3.5 Giant ist führend in der schnellen Haftung und konkurriert in der Bildqualität mit größeren Modellen. Die Giant Turbo-Variante liefert schnelle Schlussfolgerungen und hochwertige Ergebnisse, während die 3.5 Medium-Variante eine leistungsstarke und effiziente Choice unter den mittelgroßen Modellen bietet.
Zugriff auf stabile Diffusion 3.5
Auf der Stability.ai-Plattform
Gehe zum Plattformseite und erhalten Sie Ihren API-Schlüssel. (Nach der Anmeldung werden Ihnen 25 Credit angeboten)
Führen Sie diesen Python-Code in einer Jupyter-Umgebung aus (ersetzen Sie Ihren API-Schlüssel im Code), um ein Bild zu generieren und die Eingabeaufforderung bei Bedarf zu ändern.
import requests
response = requests.submit(
f"https://api.stability.ai/v2beta/stable-image/generate/sd3",
headers={
"authorization": f"Bearer sk-{API-key}",
"settle for": "picture/*"
},
information={"none": ''},
knowledge={
"immediate": "A middle-aged man carrying formal garments",
"output_format": "jpeg",
},
)
if response.status_code == 200:
with open("./man.jpeg", 'wb') as file:
file.write(response.content material)
else:
increase Exception(str(response.json()))
Ich habe das Modell gebeten, ein Bild von „einem Mann mittleren Alters in formeller Kleidung“ zu erstellen. Das Modell scheint bei der Erstellung fotorealistischer Bilder intestine zu funktionieren.
Auf umarmendes Gesicht
Sie können das Modell auf Hugging Face verwenden.
Ersteklicken Sie auf Hyperlinkund dann können Sie direkt aus dem Steady Diffusion 3.5-Medium-Modell mit der Inferenz beginnen.
Dies ist die Schnittstelle, mit der Sie begrüßt werden:
Ich habe das Modell dazu veranlasst, ein Bild von „Ein Wald mit roten Bäumen“ zu erstellen, und es hat bei der Erstellung dieses 1024 x 1024-Bildes hervorragende Arbeit geleistet.
Probieren Sie ruhig die erweiterten Einstellungen aus, um zu sehen, wie sich das Ergebnis verändert.
Verwendung der Inferenz-API in Huggingface:
Schritt 1: Besuchen Sie die Modellseite von Stabile Diffusion 3,5-groß auf Hugging Face
Notiz: Sie können ein anderes Modell auswählen und die Optionen hier sehen: Umarmendes Gesicht.
Schritt 2: Geben Sie die erforderlichen Particulars ein, um Zugriff auf das Modell zu erhalten, da es sich um ein geschlossenes Modell handelt, und warten Sie eine Weile. Sobald Ihnen der Zugriff gewährt wurde, können Sie das Modell nutzen.
Schritt 3: Jetzt können Sie diesen Python-Code in einer Jupyter-Umgebung ausführen, um Eingabeaufforderungen an das Modell zu senden. (Stellen Sie sicher, dass Sie Ihr Hugging Face-Token in der Kopfzeile ersetzen.)
import requests
API_URL = "https://api-inference.huggingface.co/fashions/stabilityai/stable-diffusion-3.5-large"
headers = {"Authorization": "Bearer hf_token"}
def question(payload):
response = requests.submit(API_URL, headers=headers, json=payload)
return response.content material
image_bytes = question({
"inputs": "A ninja sitting on prime of a tall constructing, 8k",
})
# You'll be able to entry the picture with PIL
import io
from PIL import Picture
picture = Picture.open(io.BytesIO(image_bytes))
picture
Sie können die Eingabeaufforderung jederzeit ändern und versuchen, andere Arten von Bildern zu generieren.
Abschluss
Zusammenfassend lässt sich sagen, dass das Modell eine robuste Palette an Bilderzeugungsmodellen mit verschiedenen Leistungsstufen bietet, die sowohl für den professionellen als auch für den Verbrauchergebrauch zugeschnitten sind. Die Produktreihe, die die Modelle Giant, Giant Turbo und Medium umfasst, bietet Flexibilität in Qualität und Geschwindigkeit und ist somit eine hervorragende Wahl für verschiedene Anwendungen. Mit einfachen Zugriffsmöglichkeiten über Stabilitäts-KIs Plattform, Hugging Face und API-Integrationen erleichtert Steady Diffusion 3.5 die Erstellung hochwertiger, KI-gesteuerter Bilder.
Wenn Sie außerdem auf der Suche nach einem Kurs zur generativen KI sind, dann schauen Sie sich Folgendes an: GenAI Pinnacle-Programm
Häufig gestellte Fragen
Antwort. API-Anfragen erfordern einen API-Schlüssel zur Authentifizierung, der im Header enthalten sein sollte, um auf verschiedene Funktionalitäten zugreifen zu können.
Antwort. Zu den häufigsten Fehlern gehören unbefugter Zugriff, ungültige Parameter oder die Überschreitung von Nutzungsgrenzen, jeweils mit spezifischen Antwortcodes zur Fehlerbehebung.
Antwort. Das Modell ist im Rahmen der Stability Neighborhood License für Forschungszwecke, nichtkommerzielle Nutzung und Organisationen mit einem Umsatz von weniger als 1 Mio. USD kostenlos. Größere Unternehmen benötigen eine Enterprise-Lizenz.
Antwort. Es verwendet einen Multimodal Diffusion Transformer (MMDiT-X) mit verbesserten Trainingstechniken wie QK-Normalisierung und doppelter Aufmerksamkeit für eine verbesserte Bilderzeugung über mehrere Auflösungen hinweg.