Isolierte Renderpässe eines 3D -Zeichenmodells (3DWally.com)

Von Chris Zacharias, CEO, Imgix

Stellen Sie sich eine KI vor, die in der Lage ist, ein einzelnes Foto in eine lebendige, atmende Szene zu verwandeln. Ändern Sie die Beleuchtung, das Wetter oder sogar den Kamera -Winkel mit nur wenigen Klicks.

Dies ist kein entfernter Traum; Es ist die Zukunft der generativen Bildgebungs -KI – und ihre Stiftung liegt in einem unwahrscheinlichen Verbündeten: Sport -Engines.

Wenn natürliche Datenquellen ihre Grenzen erreichen, bieten Spiele Engines eine reichhaltige Versorgung mit synthetischen Daten, sodass KI Durchbrüche in der digitalen Bildgebung erzielen kann.

Die synthetischen Daten imperativ

Auf der Konferenz 2024 über neuronale Informationsverarbeitungssysteme (Neurips) erklärte Ilya Sutskever, Mitbegründerin von OpenAI, berühmt: „Daten sind der fossile Brennstoff der KI. Wir haben Spitzendaten erreicht und es wird nicht mehr geben. … Wir haben nur ein Web. “

Dies bedeutet, dass die natürlichen Daten, auf die wir uns für die Coaching der Modelle verlassen, endlich sind und bereits ausführlich abgebaut wurden. Wir müssen uns synthetischen Daten wenden – Daten, die durch Berechnung und Simulation generiert werden.

Die Computergrafikbranche hat Jahrzehnte damit verbracht, Instruments zu entwickeln, die sich beim Erstellen von synthetischen Daten auszeichnen. Technologien wie Unity 3D, Unreal Engine, Blender und Maya sind nicht nur Werkzeuge zum Erstellen von Videospielen und Animationen. Sie sind Engines der Innovation, die in der Lage sind, sehr detaillierte, kontrollierbare synthetische Umgebungen zu generieren, die die genauen Daten liefern können, die für die effektive Ausbildung von KI -Systemen erforderlich sind.

Warum Sport -Engines?

Spielmotoren sind aus mehreren Gründen einzigartig geeignet:

  1. Spielermotoren ermöglichen es den Schöpfer, jeden Aspekt einer synthetischen Umgebung zu manipulieren. Beleuchtung, Schatten, Texturen und sogar physikalische Phänomene wie Wasser und Feuer können akribisch kontrolliert werden. Diese Präzision ermöglicht es KI, komplexe Beziehungen zwischen diesen Elementen ohne Störung durch fremde Variablen zu lernen.
  2. Das Generieren verschiedener Datensätze ist entscheidend für die Schulung von KI -Modellen, die intestine verallgemeinert werden. Sport-Engines können in Echtzeit unzählige Permutationen von Szenen, Objekten und Umgebungen erstellen und eine praktisch unendliche Versorgung mit Trainingsdaten bieten.
  3. Sport -Engines berechnen und speichern Daten in Kanälen wie Tiefenkarten, Reflexionskarten und Schattenkarten. Diese Schichten können isoliert oder kombiniert werden, wodurch AI -Modelle verstehen, wie unterschiedliche Phänomene interagieren. Wenn Sie beispielsweise Schatten in einer synthetischen Szene ein- und ausschalten, kann ein Modell die Prinzipien der Schattenbildung und -anwendung lernen – etwas, das nur mit natürlichen Daten zu erreichen ist.

Die Unity 3D -Entwicklungsumgebung (Unity.com)

Von Speicherbeschränkungen bis zu neuen Möglichkeiten

Die Ursprünge der synthetischen Datenerzeugung in Computergrafiken beruhen aus der Notwendigkeit. Frühere Laptop fehlten dem Speicher, um hochauflösende natürliche Daten zu speichern, und zwang Entwickler, mathematisch Texturen, Beleuchtung und andere visuelle Elemente zu erstellen. Im Laufe der Jahrzehnte hat sich dies zu einer Kunst und Wissenschaft entwickelt. Heutzutage können Spielmotoren reale Phänomene wie Ätzmittel, Transluzenz und Erosion mit erstaunlicher Genauigkeit simulieren.

Diese Fortschritte sind eine Goldmine für generative KI. Durch die Nutzung von synthetischen Umgebungen können Forscher viele der Herausforderungen umgehen, die mit natürlichen Daten verbunden sind, wie Lärm, Unvorhersehbarkeit und arbeitsintensive Sammlungsprozesse. Stattdessen können sie sich darauf konzentrieren, Daten auf bestimmte KI -Schulungsziele anzupassen und den Fortschritt exponentiell zu beschleunigen.

Das ultimative Ziel der Schulung eines generativen KI -Modells ist die Verallgemeinerung, die zugrunde liegenden Prinzipien zu verstehen und sie kreativ auf neue Szenarien anzuwenden. Modelle, die das Risiko nicht verallgemeinern, entweder ihre Trainingsdaten oder halluzinierende implausible Ergebnisse wie eine menschliche Hand mit acht Fingern.

Sport Engines befassen sich mit dieser Herausforderung auf zwei wichtige Arten:

  • Fokussierte Trainingsdaten: Synthetische Umgebungen ermöglichen es den Forschern, Datensätze zu erstellen, die spezifische Merkmale oder Phänomene hervorheben und den Lernprozess des Modells leiten.
  • Vielfalt: Durch die Überwältigung des Modells mit verschiedenen Inputs erzwingen Sport Engines es, die grundlegenden Strukturen und Muster zu lernen, die den Daten zugrunde liegen.

Verfahrensmaterialien von Bodenfliesen, die im Substanzdesigner hergestellt wurden (Uneralengine.com)

Ein generalisiertes Modell ist ein Verständnis der „Leit“ -Welden der Welt, in der es operiert, ähnlich wie ein traditioneller Künstler. Ein Künstler beginnt damit, grundlegende Formen zu skizzieren, Perspektivlinien hinzuzufügen und allmählich im Element zu schichten, um letztendlich eine endgültige Zeichnung zu erreichen. Diese verinnerlichte Denkweise ermöglicht es dem Künstler, etwas zu zeichnen, selbst Dinge, die sie noch nie vor aus erster Hand gesehen haben. In ähnlicher Weise entwickeln generative KI -Modelle mit synthetischen Daten ein konzeptionelles Verständnis ihrer Domäne, sodass sie sich vorstellen und über ihre Trainingsdaten hinaus schaffen können.

Risiken und Minderungen

Synthetische Daten sind jedoch nicht ohne Risiken. Synthetische Umgebungen können manchmal zu „perfekt“ sein und die Zufälligkeit und Unvollkommenheiten der realen Welt fehlen. Zum Beispiel könnte das Zoomen in eine synthetische Textur eher ihre mathematischen Grundlagen als die organische Komplexität natürlicher Daten aufzeigen.

Um diese Risiken zu mildern, können Forscher:

  • Synthetische und natürliche Daten mischen: Die Kombination der Stärken beider sorgt dafür, dass die Modelle in der Realität auf der Grundlage der Skalierbarkeit synthetischer Umgebungen auf der Realität bleiben.
  • Einführung von Unvollkommenheiten: Hinzufügen von Rauschen, Zufälligkeit und anderen Unvollkommenheiten in der Praxis können Modelle helfen, mit Kantenfällen und Anomalien umzugehen.

Die Zukunft der generativen Bildgebung

Die nächste Grenze für generative Bildgebung liegt darin, Spielmotoren direkt in KI -Trainingspipelines einzubetten. Heute rendern wir Bilder und Movies von Spielemotoren, um sie als Trainingsdaten zu verwenden. In Zukunft könnten KI-Modelle mit Spielmotoren in Echtzeit interagieren und synthetische Umgebungen dynamisch erforschen und manipulieren, um ihre latenten Domänen zu erweitern.

AI-generierte Schatten- und Reflexionsmodell, das mit synthetischen Daten erstellt wurde (IMGIX.com)

Diese Fähigkeit könnte die Branchen verändern. Stellen Sie sich einen Fotografen vor, der ein einzelnes Bild aufnimmt und KI verwendet, um die Szene vollständig neu zu machen – die Beleuchtung, Posen oder sogar das Wetter zu verändern. Filmemacher konnten grobe Szenen -Entwürfe schießen, die wissen, dass generative KI ihre Sicht zu einem polierten Meisterwerk verfeinern wird. Solche Fortschritte versprechen, Kreativität zu demokratisieren und Einzelpersonen und kleine Groups zu ermöglichen, Ergebnisse zu erzielen, die mit denen großer Produktionshäuser mithalten.

Durch die Nutzung dieser Instruments können wir große Mengen an synthetischen Daten erstellen, das KI -Coaching beschleunigen und die Grenzen dessen überschreiten, was in der digitalen Bildgebung möglich ist. Die Synergie zwischen generativen KI und Sport -Engines wird nicht nur die Industrien neu definieren, sondern auch den kreativen Ausdruck demokratisieren und jedem, der eine Imaginative and prescient zum Leben erweckt, zum Leben erweckt wird. Da wir kurz vor dieser neuen Ära stehen, sind die Möglichkeiten so grenzenlos wie die synthetischen Welten, die wir uns vorstellen können.

Chris Zacharias ist Gründer und CEO von IMGIXein Unternehmen, das die weltweit größte Bildverarbeitungspipeline erstellt. IMGIX verarbeitet täglich mehr als 8 Milliarden Bilder und befähigt seine Kunden, den Wert ihrer Picture -Vermögenswerte freizuschalten.



Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert