Forscher vom MIT Laptop Science and Synthetic Intelligence Laboratory (CSAIL) und von Google Analysis haben möglicherweise gerade digitale Zauberei vollbracht – in Kind eines Diffusionsmodells, das die Materialeigenschaften von Objekten in Bildern verändern kann.
Synchronisiert AlchimistDas System ermöglicht es Benutzern, vier Attribute sowohl realer als auch von KI generierter Bilder zu ändern: Rauheit, Metallizität, Albedo (die anfängliche Grundfarbe eines Objekts) und Transparenz. Als Bild-zu-Bild-Diffusionsmodell kann man jedes Foto eingeben und dann jede Eigenschaft innerhalb einer kontinuierlichen Skala von -1 bis 1 anpassen, um ein neues Bild zu erstellen. Diese Fotobearbeitungsfunktionen könnten möglicherweise dazu genutzt werden, die Modelle in Videospielen zu verbessern, die Fähigkeiten der KI bei visuellen Effekten zu erweitern und Roboter-Trainingsdaten anzureichern.
Die Magie hinter Alchemist beginnt mit einem Rauschunterdrückungs-Diffusionsmodell: In der Praxis verwendeten die Forscher Steady Diffusion 1.5, ein Textual content-zu-Bild-Modell, das für seine fotorealistischen Ergebnisse und Bearbeitungsmöglichkeiten gelobt wird. Frühere Arbeiten bauten auf dem beliebten Modell auf, um Benutzern Änderungen auf höherer Ebene zu ermöglichen, wie etwa das Vertauschen von Objekten oder die Änderung der Bildtiefe. Im Gegensatz dazu wendet die Methode von CSAIL und Google Analysis dieses Modell an, um sich auf Attribute auf niedrigerer Ebene zu konzentrieren und die feineren Particulars der Materialeigenschaften eines Objekts mit einer einzigartigen, schiebereglerbasierten Schnittstelle zu bearbeiten, die ihre Gegenstücke übertrifft.
Während frühere Diffusionssysteme für ein Bild sprichwörtlich ein Kaninchen aus dem Hut zaubern konnten, konnte Alchemist dasselbe Tier so verwandeln, dass es durchscheinend aussah. Das System konnte auch eine Gummiente metallisch erscheinen lassen, einem Goldfisch den goldenen Farbton nehmen und einen alten Schuh polieren. Programme wie Photoshop verfügen über ähnliche Fähigkeiten, aber dieses Modell kann Materialeigenschaften auf einfachere Weise ändern. So sind beispielsweise in der weit verbreiteten Anwendung mehrere Schritte erforderlich, um den metallischen Look eines Fotos zu verändern.
„Wenn Sie sich ein Bild ansehen, das Sie selbst erstellt haben, ist das Ergebnis oft nicht genau das, was Sie sich vorgestellt haben“, sagt Prafull Sharma, MIT-Doktorand in Elektrotechnik und Informatik, CSAIL-Mitglied und Hauptautor eines neuen Artikels, der die Arbeit beschreibt. „Sie möchten das Bild während der Bearbeitung steuern, aber die vorhandenen Steuerelemente in Bildbearbeitungsprogrammen können die Materialien nicht ändern. Mit Alchemist nutzen wir den Fotorealismus der Ergebnisse von Textual content-zu-Bild-Modellen und entwickeln eine Schiebereglersteuerung, mit der wir eine bestimmte Eigenschaft ändern können, nachdem das ursprüngliche Bild bereitgestellt wurde.“
Präzise Steuerung
„Mithilfe von Textual content-zu-Bild-generativen Modellen können Alltagsnutzer Bilder so mühelos erstellen wie einen Satz schreiben. Die Steuerung dieser Modelle kann jedoch eine Herausforderung sein“, sagt Jun-Yan Zhu, Assistenzprofessor an der Carnegie Mellon College, der nicht an der Arbeit beteiligt battle. „Während es einfach ist, eine Vase zu erstellen, müssen Benutzer Stunden damit verbringen, verschiedene Texteingabeaufforderungen und Zufallszahlen auszuprobieren, um eine Vase mit bestimmten Materialeigenschaften wie Transparenz und Rauheit zu synthetisieren. Dies kann frustrierend sein, insbesondere für professionelle Benutzer, die bei ihrer Arbeit Präzision benötigen. Alchemist bietet eine praktische Lösung für diese Herausforderung, indem es eine präzise Kontrolle über die Materialien eines Eingabebilds ermöglicht und gleichzeitig die datengesteuerten Vorbedingungen groß angelegter Diffusionsmodelle nutzt. Dies inspiriert zukünftige Arbeiten, um generative Modelle nahtlos in die vorhandenen Schnittstellen häufig verwendeter Software program zur Inhaltserstellung zu integrieren.“
Die Designfunktionen von Alchemist könnten dabei helfen, das Erscheinungsbild verschiedener Modelle in Videospielen zu optimieren. Die Anwendung eines solchen Diffusionsmodells in diesem Bereich könnte Entwicklern helfen, ihren Designprozess zu beschleunigen und Texturen zu verfeinern, damit sie zum Gameplay eines Ranges passen. Darüber hinaus könnte das Projekt von Sharma und seinem Group dabei helfen, grafische Designelemente, Movies und Filmeffekte zu ändern, um den Fotorealismus zu verbessern und das gewünschte Materialerscheinungsbild präzise zu erzielen.
Die Methode könnte auch die Trainingsdaten von Robotern für Aufgaben wie Manipulation verfeinern. Indem man die Maschinen mit mehr Texturen vertraut macht, können sie die verschiedenen Objekte, die sie in der realen Welt erfassen, besser verstehen. Alchemist kann möglicherweise sogar bei der Bildklassifizierung helfen und analysieren, wo ein neuronales Netzwerk die materiellen Veränderungen eines Bildes nicht erkennt.
Die Arbeit von Sharma und seinem Group übertraf ähnliche Modelle, indem sie nur das gewünschte Objekt von Interesse originalgetreu bearbeiteten. Als ein Benutzer beispielsweise verschiedene Modelle aufforderte, einen Delphin auf maximale Transparenz zu optimieren, gelang dies nur Alchemist, während der Ozeanhintergrund unverändert blieb. Als die Forscher das vergleichbare Diffusionsmodell InstructPix2Pix mit denselben Daten wie ihre Vergleichsmethode trainierten, stellten sie fest, dass Alchemist bessere Genauigkeitswerte erzielte. Ebenso ergab eine Benutzerstudie, dass das MIT-Modell bevorzugt und als fotorealistischer angesehen wurde als sein Gegenstück.
Mit synthetischen Daten realistisch bleiben
Den Forschern zufolge battle es nicht praktikabel, echte Daten zu sammeln. Stattdessen trainierten sie ihr Modell anhand eines synthetischen Datensatzes, indem sie die Materialeigenschaften von 1.200 Materialien, die auf 100 öffentlich verfügbare, einzigartige 3D-Objekte angewendet wurden, in Blender, einem beliebten Computergrafik-Designtool, nach dem Zufallsprinzip bearbeiteten.
„Die Steuerung der generativen KI-Bildsynthese battle bisher durch das eingeschränkt, was Textual content beschreiben kann“, sagt Frédo Durand, Amar Bose Professor für Informatik in der MIT-Abteilung für Elektrotechnik und Informatik (EECS) und CSAIL-Mitglied, der Hauptautor des Artikels ist. „Diese Arbeit eröffnet neue und feinere Steuerungsmöglichkeiten für visuelle Attribute, die aus Jahrzehnten der Computergrafikforschung hervorgegangen sind.“
„Alchemist ist die Artwork von Technik, die benötigt wird, um maschinelles Lernen und Diffusionsmodelle für die CGI-Neighborhood und Grafikdesigner praktisch und nützlich zu machen“, fügt Mark Matthews, leitender Softwareentwickler und Co-Autor bei Google Analysis, hinzu. „Ohne sie bleibt man mit dieser Artwork unkontrollierbarer Zufälligkeit stecken. Das macht vielleicht eine Zeit lang Spaß, aber irgendwann muss man echte Arbeit leisten und sie einer kreativen Imaginative and prescient folgen lassen.“
Sharmas neuestes Projekt kommt ein Jahr nachdem er die Forschung leitete über Materialistischeine Methode des maschinellen Lernens, die ähnliche Materialien in einem Bild identifizieren kann. Diese frühere Arbeit zeigte, wie KI-Modelle ihre Fähigkeiten zum Verständnis von Materialien verfeinern können, und wurde wie Alchemist anhand eines synthetischen Datensatzes von 3D-Modellen aus Blender optimiert.
Dennoch hat Alchemist derzeit einige Einschränkungen. Das Modell hat Probleme, die Beleuchtung richtig abzuleiten, sodass es gelegentlich nicht auf die Eingabe eines Benutzers reagiert. Sharma weist darauf hin, dass diese Methode manchmal auch physikalisch unplausible Transparenzen erzeugt. Stellen Sie sich beispielsweise eine Hand vor, die teilweise in einer Müslischachtel steckt – bei der maximalen Einstellung von Alchemist für dieses Attribut würden Sie einen durchsichtigen Behälter sehen, ohne dass die Finger hineinreichen.
Die Forscher möchten näher darauf eingehen, wie ein solches Modell 3D-Property für Grafiken auf Szenenebene verbessern könnte. Außerdem könnte Alchemist dabei helfen, Materialeigenschaften aus Bildern abzuleiten. Laut Sharma könnte diese Artwork von Arbeit in Zukunft Verbindungen zwischen visuellen und mechanischen Merkmalen von Objekten aufdecken.
MIT EECS-Professor und CSAIL-Mitglied William T. Freeman ist ebenfalls Hauptautor, zusammen mit Varun Jampani und den Google Analysis-Wissenschaftlern Yuanzhen Li PhD ’09, Xuhui Jia und Dmitry Lagun. Die Arbeit wurde teilweise durch ein Stipendium der Nationwide Science Basis und Spenden von Google und Amazon unterstützt. Die Arbeit der Gruppe wird im Juni bei CVPR vorgestellt.