Die Fähigkeit, schnell hochwertige Bilder zu erzeugen, ist entscheidend für die Erzeugung realistischer simulierter Umgebungen, mit denen selbstfahrende Autos unvorhersehbare Gefahren vermeiden können und sie auf realen Straßen sicherer machen können.
Die generativen Techniken für künstliche Intelligenz werden jedoch zunehmend zur Herstellung solcher Bilder verwendet. Eine beliebte Artwork von Modell, das als Diffusionsmodell bezeichnet wird, kann erstaunlich realistische Bilder erzeugen, ist jedoch für viele Anwendungen zu langsam und rechenintensiv. Andererseits sind die autoregressiven Modelle, die LLMs wie ChatGPT betreiben, viel schneller, aber sie erzeugen Bilder von schlechterer Qualität, die oft mit Fehlern durchsetzt sind.
Forscher von MIT und Nvidia entwickelten einen neuen Ansatz, der das Beste aus beiden Methoden zusammenbringt. Ihr Hybrid-Bild-Technology-Software verwendet ein autoregressives Modell, um das große Bild schnell und dann ein kleines Diffusionsmodell zu erfassen, um die Particulars des Bildes zu verfeinern.
Ihr Software, bekannt als HART (kurz für den autoregressiven Transformator), kann Bilder erzeugen, die der Qualität der hochmodernen Diffusionsmodelle übereinstimmen oder überschreiten, dies jedoch etwa neunmal schneller.
Der Erzeugungsprozess verbraucht weniger Rechenressourcen als typische Diffusionsmodelle, sodass HART lokal auf einem kommerziellen Laptop computer oder einem Smartphone laufen kann. Ein Benutzer muss nur eine natürliche Sprache in die HART -Schnittstelle eingeben, um ein Bild zu generieren.
Hart könnte eine breite Palette von Anwendungen haben, z. B. den Forschern dabei helfen, Roboter auszubilden, um komplexe reale Aufgaben zu erledigen und Designer bei der Herstellung von Schlagszenen für Videospiele zu unterstützen.
“If you’re portray a panorama, and also you simply paint your entire canvas as soon as, it may not look superb. However should you paint the large image after which refine the picture with smaller brush strokes, your portray might look rather a lot higher. That’s the fundamental concept with HART,” says Haotian Tang SM ’22, PhD ’25, co-lead creator of a Neues Papier über Hart.
Er wird von Yecheng Wu, einem Pupil der Tsinghua College, von Co-Lead-Autorin; Senior Autor Music Han, Affiliate Professor am MIT Division of Electrical Engineering and Data (EECS), Mitglied des MIT-IBM Watson AI Lab, und angesehener Wissenschaftler von Nvidia; sowie andere am MIT, die Tsinghua College und Nvidia. Die Forschung wird auf der Internationalen Konferenz über Lernrepräsentationen vorgestellt.
Das Beste aus beiden Welten
Beliebte Diffusionsmodelle wie stabile Diffusion und Dall-e produzieren bekanntermaßen detaillierte Bilder. Diese Modelle erzeugen Bilder durch einen iterativen Prozess, bei dem sie auf jedem Pixel ein gewisses Maß an zufälliger Rauschen vorhersagen, das Rauschen subtrahieren und dann den Vorhersageprozess wiederholen und mehrmals „abosinieren“, bis sie ein neues Bild erzeugen, das völlig frei von Rauschen ist.
Da das Diffusionsmodell bei jedem Schritt alle Pixel in einem Bild abgebaut hat und es 30 oder mehr Schritte geben kann, ist der Prozess langsam und rechenintensiv. Da das Modell jedoch mehrere Chancen hat, Particulars zu korrigieren, sind die Bilder qualitativ hochwertig.
Autoregressive Modelle, die üblicherweise zur Vorhersage von Textual content verwendet werden, können Bilder erzeugen, indem Patches eines Bildes nacheinander einige Pixel gleichzeitig vorhergesagt werden. Sie können nicht zurückkehren und ihre Fehler korrigieren, aber der sequentielle Vorhersageprozess ist viel schneller als die Diffusion.
Diese Modelle verwenden Darstellungen, die als Token bekannt sind, um Vorhersagen zu treffen. Ein autoregressives Modell verwendet einen Autocoder, um Rohbildpixel in diskrete Token zu komprimieren und das Bild von vorhergesagten Token zu rekonstruieren. Während dies die Geschwindigkeit des Modells stärkt, verursacht der Informationsverlust, der während der Komprimierung auftritt, Fehler, wenn das Modell ein neues Bild erzeugt.
Bei HART entwickelten die Forscher einen hybriden Ansatz, bei dem ein autoregressives Modell verwendet wird, um komprimierte, diskrete Bildtoken vorherzusagen, und dann ein kleines Diffusionsmodell zur Vorhersage von verbleibenden Token. Resttoken kompensieren den Informationsverlust des Modells, indem sie Particulars erfassen, die von diskreten Token ausgelassen wurden.
„Wir können einen enormen Schub in Bezug auf die Rekonstruktionsqualität erzielen. Unsere verbleibenden Token lernen Hochfrequenzdetails, wie die Kanten eines Objekts oder die Haare, die Augen oder der Mund einer Particular person. Dies sind Orte, an denen diskrete Token Fehler machen können“, sagt Tang.
Da das Diffusionsmodell nur die verbleibenden Particulars vorhersagt, nachdem das autoregressive Modell seinen Job erledigt hat, kann es die Aufgabe in acht Schritten erfüllen, anstatt dass ein Commonplace -Diffusionsmodell für 30 oder mehr erforderlich ist, um ein ganzes Bild zu generieren. Dieser minimale Aufwand des zusätzlichen Diffusionsmodells ermöglicht es HART, den Geschwindigkeitsvorteil des autoregressiven Modells beizubehalten und gleichzeitig seine Fähigkeit zu verbessern, komplizierte Bilddetails zu erzeugen.
„Das Diffusionsmodell hat eine einfachere Aufgabe zu erledigen, was zu mehr Effizienz führt“, fügt er hinzu.
Outperformance größere Modelle
Während der Entwicklung von HART stießen die Forscher vor Herausforderungen, um das Diffusionsmodell effektiv zu integrieren, um das autoregressive Modell zu verbessern. Sie fanden heraus, dass die Einbeziehung des Diffusionsmodells in die frühen Stadien des autoregressiven Prozesses zu einer Akkumulation von Fehlern führte. Stattdessen hat ihr endgültiges Design, das Diffusionsmodell anzuwenden, um nur verbleibende Token als endgültige Schritt vorzuhalten, die die Qualität der Erzeugung erheblich verbessert.
Ihre Methode, die eine Kombination aus einem autoregressiven Transformatormodell mit 700 Millionen Parametern und einem leichten Diffusionsmodell mit 37 Millionen Parametern verwendet, kann Bilder von derselben Qualität erzeugen, die durch ein Diffusionsmodell mit 2 Milliarden Parametern erzeugt werden, dies jedoch etwa neunmal schneller. Es verwendet etwa 31 Prozent weniger Berechnung als hochmoderne Modelle.
Da Hart ein autoregressives Modell verwendet, um den Großteil der Arbeit zu erledigen-dieselbe Artwork von Modell wie LLMs-, ist es für die Integration mit der neuen Klasse der generativen Modelle der einheitlichen Imaginative and prescient-Sprache kompatibel. In Zukunft könnte man mit einem einheitlichen generativen Modell mit einer einheitlichen Imaginative and prescient interagieren, indem man es möglicherweise bittet, die Zwischenschritte zu zeigen, die erforderlich sind, um ein Möbelstück zusammenzustellen.
„LLMs sind eine gute Schnittstelle für alle möglichen Modelle wie multimodale Modelle und Modelle, die begründen können. Dies ist eine Möglichkeit, die Intelligenz an eine neue Grenze zu bringen. Ein effizientes Bild-Technology-Modell würde viele Möglichkeiten freischalten“, sagt er.
In Zukunft wollen die Forscher diesen Weg unterwegs gehen und Visionsprachmodelle über die Hart-Architektur aufbauen. Da Hart skalierbar und auf mehrere Modalitäten verallgemeinerbar ist, möchten sie es auch für Aufgaben zur Videogenerierung und Audiovorhersage anwenden.
Diese Forschung wurde zum Teil vom MIT-IBM Watson AI Lab, dem MIT und Amazon Science Hub, dem MIT AI-Hardwareprogramm und der US Nationwide Science Basis finanziert. Die GPU -Infrastruktur für das Coaching Dieses Modell wurde von NVIDIA gespendet.