Stabile Diffusion 1,5/2,0/2,1/XL 1.0, Dall-e, Imagin… in den letzten Jahren,, Diffusionsmodelle haben atemberaubende Qualität in der Bildgenerierung vorgestellt. Während diese allgemeinen Konzepte eine hervorragende Qualität erzeugen, kämpfen diese Schwierigkeiten, eine hohe Qualität für spezialisiertere Abfragen zu erzielen, beispielsweise in einem bestimmten Stil, die im Trainingsdatensatz nicht häufig zu sehen waren.

Wir könnten das gesamte Modell über eine große Anzahl von Bildern übertragen und die Konzepte erklären, die erforderlich sind, um das Drawback von Grund auf neu zu behandeln. Dies klingt jedoch nicht praktisch. Erstens brauchen wir einen großen Satz von Bildern für die Idee, und zweitens ist es einfach zu teuer und zeitaufwändig.

Es gibt jedoch Lösungen, dass aufgrund einer Handvoll Bilder und einer Stunde Feinabstimmung im schlimmsten Fall Diffusionsmodelle eine angemessene Qualität für die neuen Konzepte erzeugen würden.

Unten decke ich Ansätze wie Dreambooth ab, LoraHyper-Networks, Textinversion, IP-Adapter und Kontrollnetze, die häufig verwendet werden, um die Diffusionsmodelle anzupassen und zuzustellen. Die Idee hinter all diesen Methoden ist es, ein neues Konzept zu merken, das wir lernen wollen, aber jede Technik nähert sich es anders.

Diffusionsarchitektur

Bevor wir uns mit verschiedenen Methoden eintauchen, die dazu beitragen, Diffusionsmodelle zuzustbauen, rufen wir zunächst die Diffusionsmodelle zusammen.

Diffusionsprozessvisualisierung. Bild des Autors.

Die ursprüngliche Idee von Diffusionsmodellen besteht darin, ein Modell zu trainieren, um ein kohärentes Bild aus Rauschen zu rekonstruieren. In der Trainingsphase fügen wir allmählich kleine Mengen an Gaußschen Rauschen (Vorwärtsprozess) hinzu und rekonstruieren dann das Bild iterativ, indem wir das Modell optimieren, um das Rauschen vorherzusagen, und subtrahieren, was wir uns dem Zielbild nähern würden (Reverse -Prozess).

Die ursprüngliche Idee der Bildverderbnis hat entwickelte sich zu einem praktischeren und leichte Architektur, in der Bilder zuerst auf einen latenten Raum komprimiert werden, und die gesamte Manipulation mit zugesetztem Rauschen wird im niedrigdimensionalen Raum durchgeführt.

Um dem Diffusionsmodell Textinformationen hinzuzufügen, übergeben wir sie zunächst durch einen Textcoder (typischerweise Clip) Um eine latente Einbettung zu erzeugen, wird dies dann in das Modell mit kreuzbezogenen Schichten injiziert.

Dreambooth Visualisierung. Trainingbare Blöcke sind rot markiert. Bild des Autors.

Die Idee ist, ein seltenes Wort zu nehmen; Typischerweise wird ein {sKS} -Phrase verwendet und dann das Modell beigebracht, das Wort {sks} einer Funktion zuzuordnen, die wir gerne lernen möchten. Das könnte zum Beispiel ein Stil sein, den das Modell noch nie gesehen hat, wie Van Gogh. Wir würden ein Dutzend seiner Gemälde zeigen und den Ausdruck „ein Gemälde von Stiefeln im {SKS} -Stil“. In ähnlicher Weise könnten wir die Technology in ähnlicher Weise personalisieren und lernen, wie man Bilder einer bestimmten Particular person generiert, z. B. in den Bergen in den Bergen auf einem Satz von Selfies.

Um die in der Vorinstallationserfahrung gelernten Informationen aufrechtzuerhalten, ermutigt Dreambooth das Modell, nicht zu sehr von der ursprünglichen, vorgebliebenen Model abzuweichen, indem Textual content-Picture-Paare hinzugefügt werden, die vom ursprünglichen Modell zum Feinabstimmungssatz generiert werden.

Wann zu verwenden und wenn nicht
Dreambooth produziert die beste Qualität bei allen Methoden. Die Technik könnte jedoch bereits erlernte Konzepte beeinflussen, da das gesamte Modell aktualisiert wird. Der Trainingsplan beschränkt auch die Anzahl der Konzepte, die das Modell verstehen kann. Das Coaching ist zeitaufwändig und dauert 1–2 Stunden. Wenn wir uns entscheiden, mehrere neue Konzepte gleichzeitig einzuführen, müssten wir zwei Modellkontrollpunkte speichern, was viel Platz verschwendet.

Textinversion, PapierAnwesend Code

Textinversionsvisualisierung. Trainingbare Blöcke sind rot markiert. Bild des Autors.

Die Annahme der textuellen Inversion ist, dass das im latente Raum der Diffusionsmodelle gespeicherte Wissen umfangreich ist. Daher ist der Stil oder der Zustand, den wir mit dem Diffusionsmodell reproduzieren möchten, ihm bereits bekannt, aber wir haben einfach nicht das Token, um darauf zuzugreifen. Anstatt das Modell zur Reproduktion der gewünschten Ausgabe zu füllen, wenn sie mit seltenen Wörtern „im {sKS} -Stil“ gefüttert werden, optimieren wir eine textuelle Einbettung, die zu der gewünschten Ausgabe führen würde.

Wann zu verwenden und wenn nicht
Es braucht sehr wenig Platz, da nur das Token gespeichert wird. Es ist auch relativ schnell zu trainieren, mit einer durchschnittlichen Trainingszeit von 20 bis 30 Minuten. Es kommt jedoch mit seinen Mängel-da wir einen bestimmten Vektor, der das Modell leitet, um einen bestimmten Stil zu erzeugen, über diesen Stil hinausgeht.

Lora Visualisierung. Trainingbare Blöcke sind rot markiert. Bild des Autors.

Für Großsprachenmodelle wurden Anpassungen mit niedrigem Rang (LORA) vorgeschlagen und waren zuerst an das Diffusionsmodell von Simo Ryu angepasst. Die ursprüngliche Idee von Loras ist, dass wir, anstatt das gesamte Modell zu optimieren, das eher kostspielig sein kann, einen Bruchteil neuer Gewichte mischen können, die für die Aufgabe mit einem ähnlichen seltenen Token-Ansatz in das ursprüngliche Modell abgestimmt wären.

In Diffusionsmodellen wird die Rangabteilung auf Kreuzungsschichten angewendet und ist für die Zusammenführung von Eingabeaufforderungen und Bildinformationen verantwortlich. Die Gewichtsmatrizen WO, WQ, WK und WV in diesen Schichten haben Lora angewendet.

Wann zu verwenden und wenn nicht
Loras braucht sehr wenig Zeit zum Trainen (5–15 Minuten) – wir aktualisieren eine Handvoll Parameter im Vergleich zum gesamten Modell und im Gegensatz zu Dreambooth nehmen sie viel weniger Platz. Modelle in kleinen Größe, die mit Loras fein abgestimmt sind, erweisen jedoch im Vergleich zu Dreambooth eine schlechtere Qualität.

Hyper-Networks, Papier, Code

Hyper-Networks-Visualisierung. Trainingbare Blöcke sind rot markiert. Bild des Autors.

Hyper-Networks sind in gewissem Sinne Erweiterungen zu Loras. Anstatt die relativ kleinen Einbettungen zu lernen, die die Ausgabe des Modells direkt verändern würden, schulen wir ein separates Netzwerk, das die Gewichte für diese neu injizierten Einbettungen vorhersagen kann.

Wenn das Modell die Einbettungen für ein bestimmtes Konzept vorhersagt, können wir dem Hyperetwork mehrere Konzepte beibringen und dasselbe Modell für mehrere Aufgaben wiederverwenden.

Wann zu verwenden und nicht
Hyperetworks, die sich nicht auf einen einzelnen Stil spezialisiert haben, sondern in der Lage sind, Fülle zu produzieren, führen im Allgemeinen nicht zu einer so guten Qualität wie die anderen Methoden und können viel Zeit zum Coaching in Anspruch nehmen. Auf der Profis können sie viel mehr Konzepte speichern als andere Einzelkonzept-Feinabstimmungsmethoden.

IP-Adapter-Visualisierung. Trainingbare Blöcke sind rot markiert. Bild des Autors.

Anstatt die Bilderzeugung mit Textanforderungen zu steuern, schlagen IP -Adapter eine Methode vor, um die Erzeugung mit einem Bild ohne Änderungen am zugrunde liegenden Modell zu steuern.

Die Kernidee hinter dem IP-Adapter ist ein entkoppelter Kreuzbewegungsmechanismus, der die Kombination von Quellbildern mit Textual content und generierten Bildfunktionen ermöglicht. Dies wird erreicht, indem eine separate Kreuzungschicht hinzugefügt wird, sodass das Modell bildspezifische Merkmale erlernen kann.

Wann zu verwenden und nicht
IP -Adapter sind leicht, anpassungsfähig und schnell. Ihre Leistung hängt jedoch stark von der Qualität und Vielfalt der Trainingsdaten ab. IP -Adapter funktionieren im Allgemeinen besser mit der Lieferung stilistischer Attribute (z. B. mit einem Bild von Mark Chagalls Gemälden), das wir in dem erzeugten Bild sehen möchten und die Kontrolle über die Kontrolle über genaue Particulars wie Pose haben möchten.

ControlNET -Visualisierung. Trainingbare Blöcke sind rot markiert. Bild des Autors.

ControlNET-Papier schlägt eine Möglichkeit vor, die Eingabe des Textual content-zu-Picture-Modells auf jede Modalität zu erweitern und die feinkörnige Kontrolle des generierten Bildes zu ermöglichen.

In der ursprünglichen Formulierung ist ControlNET ein Encoder des vorgebildeten Diffusionsmodells, das als Eingabe die Eingabeaufforderung, Rauschen und Kontrolldaten (z. B. Tiefenmap, Sehenswürdigkeiten usw.) nimmt. Um die Erzeugung zu leiten, werden die Zwischenstufen des ControlNET zu den Aktivierungen des gefrorenen Diffusionsmodells hinzugefügt.

Die Injektion wird durch Nullkonvolutionen erreicht, bei denen die Gewichte und Verzerrungen von 1 × 1-Konvolutionen als Nullen initialisiert werden und während des Trainings allmählich aussagekräftige Transformationen lernen. Dies ähnelt der Ausbildung von Loras – intialisiert mit 0, die sie aus der Identitätsfunktion lernen.

Wann zu verwenden und nicht
ControlNets sind vorzuziehen, wenn wir die Ausgangsstruktur steuern möchten, z. B. durch Sehenswürdigkeiten, Tiefenkarten oder Kantenkarten. Aufgrund der Notwendigkeit, die gesamten Modellgewichte zu aktualisieren, könnte das Coaching zeitaufwändig sein. Diese Methoden ermöglichen jedoch auch die beste feinkörnige Kontrolle durch starre Kontrollsignale.

Zusammenfassung

  • Dreambooth: Vollständige Feinabstimmung von Modellen für benutzerdefinierte Themen von Stilen, hoher Kontrollstufe; Es dauert jedoch lange Zeit, um zu trainieren und sind nur für einen Zweck geeignet.
  • Textinversion: Einbettungsbasiertes Lernen für neue Konzepte, ein geringer Kontrollniveau, jedoch schnell zu trainieren.
  • Lora: Leichte Feinabstimmung von Modellen für neue Stile/Charaktere, mittelgroße Kontrolle, während sie schnell trainieren
  • Hypernetworks: Separates Modell zur Vorhersage von LORA -Gewichten für eine bestimmte Kontrollanforderung. Niedrigere Kontrollstufe für mehr Stile. Braucht Zeit zum Coaching.
  • IP-Adapter: Guidanz von Softstil/Inhalt über Referenzbilder, mittelgroße stilistische Steuerung, leicht und effizient.
  • ControlNet: Die Kontrolle über Pose, Tiefe und Kanten ist sehr präzise; Es dauert jedoch länger, um zu trainieren.

Beste Observe: Für die besten Ergebnisse würde die Kombination aus IP-Adaptter mit seiner weicheren stilistischen Anleitung und Steuerung für Pose und Objektanordnung die besten Ergebnisse erzielen.

Wenn Sie sich mit weiteren Particulars zur Diffusion befassen möchten, schauen Sie sich an Dieser Artikeldass ich sehr intestine geschrieben auf jeder Ebene des maschinellen Lernens und der Mathematik zugänglich warfare. Wenn Sie eine intuitive Erklärung der Mathematik mit coolem Kommentar haben möchten Dieses Video oder Dieses Video.

Um Informationen zu ControlNets zu suchen, fand ich fest Diese Erklärung Sehr hilfsbereit, Dieser Artikel Und Dieser Artikel Könnte auch ein gutes Intro sein.

Mochte den Autor? Bleib in Verbindung!

Habe ich etwas verpasst? Zögern Sie nicht, eine Notiz zu hinterlassen, einen Kommentar oder eine Nachricht direkt zu schreiben LinkedIn oder Twitter!

Die Meinungen in diesem Weblog sind meine eigenen und nicht auf oder im Namen von Snap zuzubereiten.


Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert