Diffusionsmodelle entmystifiziert: Verständnis der Technologie hinter Dall-e und MidJourneyDiffusionsmodelle entmystifiziert: Verständnis der Technologie hinter Dall-e und MidJourney
Bild von Autor | Ideogramm

Generative KI -Modelle haben sich in den letzten Jahren als steigender Star herausgestellt, insbesondere mit der Einführung von Produkten des großartigen Modellmodells (LLM) wie Chatgpt. Mit der natürlichen Sprache, die Menschen verstehen können, können diese Modelle Eingaben verarbeiten und eine geeignete Ausgabe liefern. Aufgrund von Produkten wie Chatgpt sind auch andere Formen der generativen KI beliebt und Mainstream geworden.

Produkte wie Dall-e Und Midjourney sind inmitten des generativen KI -Booms aufgrund ihrer Fähigkeit, Bilder ausschließlich aus natürlichen Spracheingaben zu erzeugen, populär geworden. Diese beliebten Produkte erstellen keine Bilder aus dem Nichts. Stattdessen verlassen sie sich auf ein Modell, das als Diffusionsmodell bekannt ist.

In diesem Artikel werden wir das Diffusionsmodell entmystifizieren, um ein tieferes Verständnis der Technologie dahinter zu erlangen. Wir werden das grundlegende Konzept diskutieren, wie das Modell funktioniert und wie es geschult wird.

Neugierig? Lassen Sie uns darauf eingehen.

# Diffusionsmodell -Grundlagen

Diffusionsmodelle sind eine Klasse von AI -Algorithmen, die unter die Kategorie generativer Modelle fallen, um neue Daten basierend auf Trainingsdaten zu generieren. Im Fall von Diffusionsmodellen bedeutet dies, dass sie neue Bilder aus angegebenen Eingaben erstellen können.

Diffusionsmodelle erzeugen jedoch Bilder durch einen anderen Prozess als gewöhnlich, wobei das Modell Rauschen aus Daten hinzufügt und dann entfernt. Einfacher verändert das Diffusionsmodell ein Bild und verfeinert es dann, um das Endprodukt zu erstellen. Sie können sich das Modell als ein demoisinges Modell vorstellen, da es lernt, Rauschen aus den Bildern zu entfernen.

Formal tauchte das Diffusionsmodell erstmals im Papier auf Tiefes unbeaufsichtigtes Lernen mit Nichtgleichgewichtsthermodynamik von Sohl-Dickstein et al. (2015). Das Papier führt das Konzept des Konvertierens von Daten in Rauschen mit einem Prozess ein, der als kontrollierter Vorwärtsdiffusionsprozess bezeichnet wird, und schult dann ein Modell, um den Prozess umzukehren und die Daten zu rekonstruieren, was der demoising -Prozess ist.

Aufbau auf dieser Stiftung das Papier Denoising diffusion probabilistische Modelle von Ho et al. (2020) stellt das moderne Diffusionsgerüst ein, das hochwertige Bilder erzeugen und frühere beliebte Modelle wie generative kontroverse Netzwerke (GANS) übertreffen kann. Im Allgemeinen besteht ein Diffusionsmodell aus zwei kritischen Phasen:

  1. Vorwärts (Diffusion) Prozess: Die Daten werden beschädigt, indem Rauschen inkrementell hinzugefügt wird, bis es nicht von zufälliger statischer statisch zu unterscheiden ist
  2. Reverse (Denoising) -Prozess: Ein neuronales Netzwerk wird trainiert, um das Rauschen iterativ zu entfernen und zu lernen, wie Bilddaten aus vollständiger Zufälligkeit rekonstruieren

Versuchen wir, die Diffusionsmodellkomponenten besser zu verstehen, um ein klareres Bild zu haben.

// Vorwärtsprozess

Der Vorwärtsverfahren ist die erste Part, in der ein Bild systematisch abgebaut wird, indem Rauschen bis zum Zufallsprinzip statisch wird.

Der Vorwärtsverfahren wird kontrolliert und iterativ, was wir in den folgenden Schritten zusammenfassen können:

  1. Beginnen Sie mit einem Bild aus dem Datensatz
  2. Fügen Sie dem Bild eine kleine Menge Rauschen hinzu
  3. Wiederholen Sie diesen Vorgang mehrmal

Nach genügend Schritten erscheint das Originalbild als reines Rauschen.

Der obige Prozess wird häufig als Markov -Kette mathematisch modelliert, da jede laute Model nur von der unmittelbar vor ihr abhängt, nicht von der gesamten Abfolge von Schritten.

Aber warum sollten wir das Bild nach und nach in Rauschen verwandeln, anstatt es in einem Schritt direkt in Rauschen umzuwandeln? Ziel ist es, das Modell nach und nach zu ermöglichen, die Korruption umzukehren. Kleine, inkrementelle Schritte ermöglichen es dem Modell, den Übergang von lauten zu weniger unzähligen Daten zu erlernen, wodurch das Bild Schritt für Schritt von reinem Rauschen rekonstruiert wird.

Um zu bestimmen, wie viel Rauschen bei jedem Schritt hinzugefügt wird, wird das Konzept eines Geräuschplans verwendet. Beispielsweise führen lineare Zeitpläne im Laufe der Zeit Geräusche vor, während Cosinus -Zeitpläne für einen längeren Zeitraum nützliche Bildfunktionen aufbewahren und nützliche Bildfunktionen erhalten.

Das ist eine kurze Zusammenfassung des Vorwärtsprozesses. Lassen Sie uns den umgekehrten Prozess kennenlernen.

// Umkehrprozess

In der nächsten Stufe nach dem Vorwärtsverfahren wird das Modell in einen Generator umgewandelt, der lernt, das Rauschen wieder in Bilddaten zu verwandeln. Durch iterative kleine Schritte kann das Modell Bilddaten generieren, die zuvor nicht vorhanden waren.

Im Allgemeinen ist der umgekehrte Prozess die Umkehrung des Vorwärtsprozesses:

  1. Beginnen Sie mit reinem Rauschen – ein völlig zufälliges Bild, das aus Gaußschen Rauschen besteht
  2. Entfernen Sie iterativ das Rauschen mit einem geschulten Modell, das versucht, eine umgekehrte Model jedes Vorwärtsschritts zu approximieren. In jeder Schritt
  3. Schritt für Schritt wird das Bild zunehmend klarer, was zu den endgültigen Bilddaten führt

Dieser umgekehrte Prozess erfordert ein Modell, das geschult wurde, um laute Bilder zu denoise. Diffusionsmodelle verwenden häufig eine neuronale Netzwerkarchitektur wie ein U-NET, bei dem es sich um einen Autocodierer handelt, der Faltungsschichten in einer Encoder-Decoder-Struktur kombiniert. Während des Trainings lernt das Modell, die während des Vorwärtsprozesses hinzugefügten Rauschkomponenten vorherzusagen. In jedem Schritt berücksichtigt das Modell auch den Zeitschritt, sodass es seine Vorhersagen entsprechend dem Rauschenspiegel einstellen kann.

Das Modell wird typischerweise unter Verwendung einer Verlustfunktion wie dem mittleren Quadratfehler (MSE) trainiert, der den Unterschied zwischen dem vorhergesagten und dem tatsächlichen Rauschen misst. Durch die Minimierung dieses Verlusts über viele Beispiele hinweg kann das Modell allmählich den Diffusionsprozess umkehren.

Im Vergleich zu Alternativen wie Gans bieten Diffusionsmodelle mehr Stabilität und einen einfacheren generativen Weg. Der Schritt-für-Schritt-Denoising-Ansatz führt zu ausdrucksstärkerem Lernen, was das Coaching zuverlässiger und interpretierbarer macht.

Sobald das Modell vollständig trainiert ist, folgt die Erzeugung eines neuen Bildes dem umgekehrten Prozess, den wir oben zusammengefasst haben.

// Textkonditionierung

In vielen Textual content-zu-Picture-Produkten wie Dall-E und Midjourney können diese Systeme den umgekehrten Prozess mithilfe von Textanforderungen leiten, die wir als Textkonditionierung bezeichnen. Durch die Integration der natürlichen Sprache können wir eher eine passende Szene als zufällige Bilder erwerben.

Der Prozess funktioniert, indem ein vorgebildeter Textcodierer verwendet wird, z. B. Clip (kontrastive Sprache-Picture vor der Ausbildung)der die Textaufforderung in einen Vektor einbettet. Diese Einbettung wird dann durch einen Mechanismus wie Kreuzbewegung in die Diffusionsmodellarchitektur eingespeist, eine Artwork Aufmerksamkeitsmechanismus, mit dem sich das Modell auf bestimmte Teile des Textes konzentrieren und den Bildgenerierungsprozess mit dem Textual content ausrichten kann. Bei jedem Schritt des Umkehrungsprozesses untersucht das Modell den aktuellen Bildzustand und die Textaufforderung, wobei das Bild mit der Semantik aus der Eingabeaufforderung an die Semantik ausgerichtet ist.

Dies ist der Kernmechanismus, mit dem Dall-E und MidJourney Bilder von Eingabeaufforderungen generieren können.

# Wie unterscheiden sich Dall-e und MidJourney?

Beide Produkte verwenden Diffusionsmodelle als Fundament, unterscheiden sich jedoch in ihren technischen Anwendungen geringfügig.

Beispielsweise verwendet Dall-E ein Diffusionsmodell, das von Clip-basiertem Einbettung für die Textkonditionierung geleitet wird. Im Gegensatz dazu zeigt MidJourney seine proprietäre Diffusionsmodellarchitektur, die Berichten zufolge einen für hohen Realismus optimierten fein abgestimmten Picture-Decoder enthält.

Beide Modelle stützen sich auch auf Kreuzbewegungen, aber ihre Leitstile unterscheiden sich. Dall-E betont das Einhaltung der Eingabeaufforderung durch klassifikatorfreie Führung, die zwischen bedingungslosen und textbezogenen Ausgaben ausbaut. Im Gegensatz dazu neigt MidJourney dazu, die stilistische Interpretation zu priorisieren und möglicherweise eine höhere Normal-Leitlinienskala für klassifikatorfreie Anleitung zu verwenden.

Dall-E und Midjourney unterscheiden sich in der Umstellung von sofortiger Länge und Komplexität, da das Dall-E-Modell längere Eingabeaufforderungen verwalten kann, indem sie sie verarbeiten, bevor sie die Diffusionspipeline eingeben, während Midjourney dazu neigt, mit prägnanten Eingaben besser abzubauen.

Es gibt mehr Unterschiede, aber dies sind diejenigen, die Sie wissen sollten, die sich auf die Diffusionsmodelle beziehen.

# Abschluss

Diffusionsmodelle sind zu einer Grundlage moderner Textual content-zu-Picture-Systeme wie Dall-E und Midjourney geworden. Durch die Verwendung der grundlegenden Prozesse von Vorwärts- und Rückwärtsdiffusion können diese Modelle völlig neue Bilder aus Zufälligkeit erzeugen. Darüber hinaus können diese Modelle die natürliche Sprache verwenden, um die Ergebnisse durch Mechanismen wie Textkonditionierung und Kreuzung zu führen.

Ich hoffe das hat geholfen!

Cornellius Yudha Wijaya ist ein Information Science Assistant Supervisor und Datenautor. Während er in Vollzeit bei Allianz Indonesien arbeitet, liebt er es, Python- und Datentipps über soziale Medien und das Schreiben von Medien zu teilen. Cornellius schreibt über eine Vielzahl von KI- und maschinellen Lernthemen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert