Das Erstellen realistischer 3D-Modelle für Anwendungen wie Digital Actuality, Filmemachen und technisches Design kann ein mühsamer Prozess sein, der viele manuelle Versuche und Irrtümer erfordert.
Während generative künstliche Intelligenzmodelle für Bilder künstlerische Prozesse rationalisieren können, indem sie es den Urhebern ermöglichen, aus Textaufforderungen lebensechte 2D-Bilder zu erstellen, sind diese Modelle nicht für die Generierung von 3D-Formen konzipiert. Um diese Lücke zu schließen, wurde eine kürzlich entwickelte Technik namens Rating-Destillation nutzt 2D-Bilderzeugungsmodelle, um 3D-Formen zu erstellen, die Ausgabe ist jedoch oft verschwommen oder cartoonartig.
MIT-Forscher untersuchten die Beziehungen und Unterschiede zwischen den Algorithmen, die zur Generierung von 2D-Bildern und 3D-Formen verwendet werden, und identifizierten die Grundursache für 3D-Modelle mit geringerer Qualität. Von dort aus entwickelten sie eine einfache Lösung für die Rating-Destillation, die die Generierung scharfer, hochwertiger 3D-Formen ermöglicht, deren Qualität den besten modellgenerierten 2D-Bildern näher kommt.
Einige andere Methoden versuchen, dieses Downside durch Umschulung oder Feinabstimmung des generativen KI-Modells zu beheben, was teuer und zeitaufwändig sein kann.
Im Gegensatz dazu erreicht die Technik der MIT-Forscher ohne zusätzliche Schulung oder komplexe Nachbearbeitung eine 3D-Formqualität, die diesen Ansätzen ebenbürtig oder sogar überlegen ist.
Darüber hinaus haben die Forscher durch die Identifizierung der Ursache des Issues das mathematische Verständnis der Rating-Destillation und verwandter Techniken verbessert, was zukünftige Arbeiten zur weiteren Leistungsverbesserung ermöglicht.
„Jetzt wissen wir, wohin wir gehen sollen, was es uns ermöglicht, effizientere Lösungen zu finden, die schneller und von höherer Qualität sind“, sagt Artem Lukoianov, ein Doktorand der Elektrotechnik und Informatik (EECS) und Hauptautor einer Arbeit zum Thema diese Technik. „Langfristig kann unsere Arbeit dazu beitragen, den Prozess als Co-Pilot für Designer zu erleichtern und die Erstellung realistischerer 3D-Formen zu erleichtern.“
Lukoianovs Co-Autoren sind Haitz Sáez de Ocáriz Borde, ein Doktorand an der Universität Oxford; Kristjan Greenewald, Forschungswissenschaftler im MIT-IBM Watson AI Lab; Vitor Campagnolo Guizilini, Wissenschaftler am Toyota Analysis Institute; Timur Bagautdinov, Forschungswissenschaftler bei Meta; und die leitenden Autoren Vincent Sitzmann, Assistenzprofessor für EECS am MIT, der die Scene Illustration Group im Pc Science and Synthetic Intelligence Laboratory (CSAIL) leitet, und Justin Solomon, außerordentlicher Professor für EECS und Leiter der CSAIL Geometrische Datenverarbeitungsgruppe. Die Forschung wird auf der Konferenz über neuronale Informationsverarbeitungssysteme vorgestellt.
Von 2D-Bildern bis zu 3D-Formen
Diffusionsmodelle wie DALL-E sind eine Artwork generatives KI-Modell, das aus zufälligem Rauschen lebensechte Bilder erzeugen kann. Um diese Modelle zu trainieren, fügen Forscher den Bildern Rauschen hinzu und bringen dem Modell dann bei, den Prozess umzukehren und das Rauschen zu entfernen. Die Modelle verwenden diesen erlernten „Entrauschungsprozess“, um Bilder basierend auf den Texteingabeaufforderungen eines Benutzers zu erstellen.
Diffusionsmodelle sind jedoch bei der direkten Generierung realistischer 3D-Formen leistungsschwach, da nicht genügend 3D-Daten vorhanden sind, um sie zu trainieren. Um dieses Downside zu umgehen, entwickelten Forscher eine Technik namens Rating-Destillationsprobenahme (SDS) im Jahr 2022, das ein vorab trainiertes Diffusionsmodell verwendet, um 2D-Bilder zu einer 3D-Darstellung zu kombinieren.
Die Technik besteht darin, mit einer zufälligen 3D-Darstellung zu beginnen, eine 2D-Ansicht eines gewünschten Objekts aus einem zufälligen Kamerawinkel zu rendern, diesem Bild Rauschen hinzuzufügen, es mit einem Diffusionsmodell zu entrauschen und dann die zufällige 3D-Darstellung so zu optimieren, dass sie mit dem entrauschten Bild übereinstimmt. Diese Schritte werden wiederholt, bis das gewünschte 3D-Objekt erzeugt ist.
Allerdings neigen auf diese Weise erzeugte 3D-Formen dazu, verschwommen oder übersättigt zu wirken.
„Das battle schon seit einiger Zeit ein Engpass. Wir wissen, dass das zugrunde liegende Modell bessere Ergebnisse liefern kann, aber die Leute wussten nicht, warum dies bei 3D-Formen geschieht“, sagt Lukoianov.
Die MIT-Forscher untersuchten die Schritte von SDS und identifizierten eine Diskrepanz zwischen einer Formel, die einen Schlüsselbestandteil des Prozesses darstellt, und ihrem Gegenstück in 2D-Diffusionsmodellen. Die Formel sagt dem Modell, wie es die Zufallsdarstellung aktualisieren soll, indem es Schritt für Schritt Rauschen hinzufügt und entfernt, damit es dem gewünschten Bild ähnlicher wird.
Da ein Teil dieser Formel eine Gleichung beinhaltet, die zu komplex ist, um effizient gelöst zu werden, ersetzt SDS sie bei jedem Schritt durch zufällig abgetastetes Rauschen. Die MIT-Forscher fanden heraus, dass dieses Rauschen zu verschwommenen oder cartoonartigen 3D-Formen führt.
Eine ungefähre Antwort
Anstatt zu versuchen, diese umständliche Formel präzise zu lösen, testeten die Forscher Näherungstechniken, bis sie die beste Lösung gefunden hatten. Anstatt den Rauschterm zufällig abzutasten, leitet ihre Näherungstechnik den fehlenden Time period aus der aktuellen 3D-Formdarstellung ab.
„Auf diese Weise werden, wie die Analyse in der Arbeit vorhersagt, 3D-Formen erzeugt, die scharf und realistisch aussehen“, sagt er.
Darüber hinaus erhöhten die Forscher die Auflösung der Bildwiedergabe und passten einige Modellparameter an, um die Qualität der 3D-Formen weiter zu verbessern.
Am Ende konnten sie ein handelsübliches, vorab trainiertes Bilddiffusionsmodell verwenden, um glatte, realistisch aussehende 3D-Formen zu erstellen, ohne dass eine kostspielige Umschulung erforderlich battle. Die 3D-Objekte sind ähnlich scharf wie diejenigen, die mit anderen Methoden hergestellt wurden, die auf Advert-hoc-Lösungen basieren.
„Der Versuch, blind mit verschiedenen Parametern zu experimentieren, manchmal funktioniert es und manchmal nicht, aber man weiß nicht warum. Wir wissen, dass dies die Gleichung ist, die wir lösen müssen. Dies ermöglicht es uns nun, effizientere Lösungsansätze zu finden“, sagt er.
Da ihre Methode auf einem vorab trainierten Diffusionsmodell basiert, übernimmt sie die Vorurteile und Mängel dieses Modells, wodurch es anfällig für Halluzinationen und andere Fehler ist. Eine Verbesserung des zugrunde liegenden Diffusionsmodells würde ihren Prozess verbessern.
Neben der Untersuchung der Formel, um herauszufinden, wie sie sie effektiver lösen könnte, sind die Forscher daran interessiert, zu untersuchen, wie diese Erkenntnisse Bildbearbeitungstechniken verbessern könnten.
Diese Arbeit wird zum Teil vom Toyota Analysis Institute, der US Nationwide Science Basis, der Singapore Defence Science and Know-how Company, der US Intelligence Superior Analysis Initiatives Exercise, dem Amazon Science Hub, IBM, dem US Military Analysis Workplace, dem finanziert CSAIL Way forward for Knowledge-Programm, die Wistron Company und das MIT-IBM Watson AI Laboratory.