Chatbots wie ChatGPT und Claude haben in den letzten drei Jahren einen kometenhaften Anstieg ihrer Nutzung erlebt, da sie Ihnen bei einer Vielzahl von Aufgaben helfen können. Egal, ob Sie Shakespeare-Sonette schreiben, Code debuggen oder eine Antwort auf eine obskure Quizfrage benötigen, Systeme der künstlichen Intelligenz scheinen für Sie da zu sein. Die Quelle dieser Vielseitigkeit? Milliarden oder sogar Billionen Textdatenpunkte im Web.

Diese Daten reichen jedoch nicht aus, um einem Roboter beizubringen, ein hilfreicher Haushalts- oder Fabrikassistent zu sein. Um zu verstehen, wie man Objekte in verschiedenen Umgebungen handhabt, stapelt und in verschiedenen Anordnungen platziert, müssen Roboter vorgeführt werden. Sie können sich Robotertrainingsdaten als eine Sammlung von Anleitungsvideos vorstellen, die die Systeme durch jede Bewegung einer Aufgabe führen. Das Sammeln dieser Demonstrationen an echten Robotern ist zeitaufwändig und nicht perfekt wiederholbar. Daher haben Ingenieure Trainingsdaten erstellt, indem sie Simulationen mit KI generierten (die oft nicht die reale Physik widerspiegeln) oder jede digitale Umgebung mühsam von Grund auf manuell erstellten.

Forscher am Laptop Science and Synthetic Intelligence Laboratory (CSAIL) des MIT und am Toyota Analysis Institute haben möglicherweise einen Weg gefunden, die vielfältigen, realistischen Trainingsgelände zu schaffen, die Roboter benötigen. Ihre „steuerbare SzenengenerierungDer Ansatz erstellt digitale Szenen von Dingen wie Küchen, Wohnzimmern und Eating places, mit denen Ingenieure viele Interaktionen und Szenarien in der realen Welt simulieren können. Das Software wurde an über 44 Millionen 3D-Räumen trainiert, die mit Modellen von Objekten wie Tischen und Tellern gefüllt sind, platziert vorhandene Property in neuen Szenen und verfeinert sie dann zu einer physikalisch genauen, lebensechten Umgebung.

Durch die steuerbare Szenengenerierung werden diese 3D-Welten erstellt, indem ein Diffusionsmodell – ein KI-System, das aus zufälligem Rauschen ein Bild generiert – in Richtung einer Szene „gelenkt“ wird, die man im Alltag findet. Die Forscher nutzten dieses generative System, um eine Umgebung „einzumalen“ und bestimmte Elemente in der gesamten Szene auszufüllen. Sie können sich vorstellen, dass sich eine leere Leinwand plötzlich in eine Küche verwandelt, die mit 3D-Objekten übersät ist, die nach und nach zu einer Szene neu arrangiert werden, die die Physik der realen Welt imitiert. Das System stellt beispielsweise sicher, dass eine Gabel nicht durch eine Schüssel auf einem Tisch geht – ein häufiger Fehler in 3D-Grafiken, der als „Clipping“ bekannt ist und bei dem sich Modelle überlappen oder schneiden.

Wie genau die steuerbare Szenengenerierung ihre Entstehung in Richtung Realismus führt, hängt jedoch von der gewählten Strategie ab. Seine Hauptstrategie ist die „Monte-Carlo-Baumsuche“ (MCTS), bei der das Modell eine Reihe alternativer Szenen erstellt und diese auf unterschiedliche Weise ausfüllt, um ein bestimmtes Ziel zu erreichen (z. B. eine Szene physisch realistischer zu machen oder so viele essbare Gegenstände wie möglich einzubeziehen). Es wird vom KI-Programm AlphaGo verwendet, um menschliche Gegner in Go (einem schachähnlichen Spiel) zu schlagen, da das System mögliche Zugfolgen berücksichtigt, bevor es die vorteilhafteste auswählt.

„Wir sind die ersten, die MCTS auf die Szenengenerierung anwenden, indem wir die Aufgabe der Szenengenerierung als einen sequentiellen Entscheidungsprozess definieren“, sagt Nicholas Pfaff, Doktorand am MIT Division of Electrical Engineering and Laptop Science (EECS), CSAIL-Forscher und Hauptautor von a Papier die Arbeit vorstellen. „Wir bauen weiterhin auf Teilszenen auf, um im Laufe der Zeit bessere oder gewünschtere Szenen zu produzieren. Infolgedessen erstellt MCTS Szenen, die komplexer sind als das, worauf das Diffusionsmodell trainiert wurde.“

In einem besonders aufschlussreichen Experiment fügte MCTS einer einfachen Restaurantszene die maximale Anzahl an Objekten hinzu. Auf einem Tisch befanden sich bis zu 34 Gegenstände, darunter riesige Stapel Dim-Sum-Gerichte, nachdem Szenen mit durchschnittlich nur 17 Gegenständen trainiert wurden.

Durch die Generierung steuerbarer Szenen können Sie auch verschiedene Trainingsszenarien durch Reinforcement Studying generieren – im Grunde genommen indem Sie einem Diffusionsmodell beibringen, ein Ziel durch Versuch und Irrtum zu erreichen. Nachdem Sie anhand der Ausgangsdaten trainiert haben, durchläuft Ihr System eine zweite Trainingsphase, in der Sie eine Belohnung skizzieren (im Grunde ein gewünschtes Ergebnis mit einer Punktzahl, die angibt, wie nah Sie diesem Ziel sind). Das Modell lernt automatisch, Szenen mit höheren Punktzahlen zu erstellen, wobei es häufig zu Szenarien kommt, die sich erheblich von denen unterscheiden, an denen es trainiert wurde.

Benutzer können das System auch direkt aufrufen, indem sie bestimmte visuelle Beschreibungen eingeben (z. B. „Eine Küche mit vier Äpfeln und einer Schüssel auf dem Tisch“). Dann kann die steuerbare Szenengenerierung Ihre Wünsche präzise zum Leben erwecken. Beispielsweise befolgte das Software die Eingabeaufforderungen der Benutzer mit einer Price von 98 Prozent bei der Erstellung von Szenen mit Vorratsregalen und 86 Prozent bei unordentlichen Frühstückstischen. Beide Noten bedeuten eine mindestens 10-prozentige Verbesserung gegenüber vergleichbaren Methoden wie „MiDiffusion“ Und „DiffuScene.“

Das System kann auch bestimmte Szenen durch Eingabeaufforderungen oder Lichtanweisungen vervollständigen (z. B. „Überlege dir eine andere Szenenanordnung mit denselben Objekten“). Sie könnten ihn beispielsweise bitten, Äpfel auf mehreren Tellern auf einem Küchentisch zu platzieren oder Brettspiele und Bücher auf ein Regal zu stellen. Es geht im Wesentlichen darum, „die Lücke zu füllen“, indem man Gegenstände in leere Räume einfügt, aber den Relaxation einer Szene beibehält.

Den Forschern zufolge liegt die Stärke ihres Projekts darin, viele Szenen zu erstellen, die Robotiker tatsächlich nutzen können. „Eine wichtige Erkenntnis aus unseren Erkenntnissen ist, dass es in Ordnung ist, wenn die Szenen, die wir vorab trainiert haben, nicht genau den Szenen ähneln, die wir eigentlich wollen“, sagt Pfaff. „Mit unseren Steuerungsmethoden können wir über diese breite Verteilung hinausgehen und von einer ‚besseren‘ Stichprobe ausgehen. Mit anderen Worten, wir können die vielfältigen, realistischen und aufgabenorientierten Szenen erzeugen, in denen wir unsere Roboter tatsächlich trainieren wollen.“

Solche riesigen Szenen wurden zum Testgelände, auf dem sie einen virtuellen Roboter aufzeichnen konnten, der mit verschiedenen Gegenständen interagierte. Die Maschine legte beispielsweise Gabeln und Messer sorgfältig in einen Besteckhalter und ordnete Brot in verschiedenen 3D-Einstellungen auf Tellern neu an. Jede Simulation wirkte flüssig und realistisch und ähnelte der realen Welt, mit deren Hilfe anpassungsfähige Roboter und steuerbare Szenengenerierung eines Tages trainieren könnten.

Während das System ein ermutigender Weg nach vorn bei der Generierung vielfältiger Trainingsdaten für Roboter sein könnte, sagen die Forscher, dass ihre Arbeit eher ein Proof of Idea sei. In Zukunft möchten sie generative KI nutzen, um völlig neue Objekte und Szenen zu erstellen, anstatt eine feste Asset-Bibliothek zu verwenden. Sie planen außerdem, bewegliche Objekte einzubauen, die der Roboter öffnen oder drehen kann (z. B. mit Lebensmitteln gefüllte Schränke oder Gläser), um die Szenen noch interaktiver zu gestalten.

Um ihre virtuellen Umgebungen noch realistischer zu gestalten, können Pfaff und seine Kollegen Objekte aus der realen Welt integrieren, indem sie eine Bibliothek von Objekten und Szenen verwenden, die aus Bildern im Web stammen, und ihre früheren Arbeiten zu „Skalierbares Real2Sim.“ Indem das Group erweitert, wie vielfältig und lebensecht KI-konstruierte Robotertestgelände sein können, hofft es, eine Benutzergemeinschaft aufzubauen, die viele Daten erstellt, die dann als riesiger Datensatz verwendet werden könnten, um geschickten Robotern verschiedene Fähigkeiten beizubringen.

„Heutzutage kann die Erstellung realistischer Szenen für die Simulation ein ziemlich herausforderndes Unterfangen sein. Durch die prozedurale Generierung kann problemlos eine große Anzahl von Szenen erzeugt werden, diese werden jedoch wahrscheinlich nicht repräsentativ für die Umgebungen sein, denen der Roboter in der realen Welt begegnen würde. Die manuelle Erstellung maßgeschneiderter Szenen ist sowohl zeitaufwändig als auch teuer“, sagt Jeremy Binagia, ein angewandter Wissenschaftler bei Amazon Robotics, der nicht an der Arbeit beteiligt battle. „Die steuerbare Szenengenerierung bietet einen besseren Ansatz: Trainieren Sie ein generatives Modell anhand einer großen Sammlung bereits vorhandener Szenen und passen Sie es (unter Verwendung einer Strategie wie Reinforcement Studying) an bestimmte nachgelagerte Anwendungen an. Im Vergleich zu früheren Arbeiten, die ein Normal-Imaginative and prescient-Language-Modell nutzen oder sich nur auf die Anordnung von Objekten in einem 2D-Raster konzentrieren, garantiert dieser Ansatz physikalische Machbarkeit und berücksichtigt vollständige 3D-Übersetzung und -Rotation, was die Generierung viel interessanterer Szenen ermöglicht.“

„Die steuerbare Szenengenerierung mit Put up-Coaching und Inferenzzeitsuche bietet einen neuartigen und effizienten Rahmen für die Automatisierung der Szenengenerierung im großen Maßstab“, sagt Rick Cory SM ’08, PhD ’10, Robotiker am Toyota Analysis Institute, der ebenfalls nicht an der Arbeit beteiligt battle. „Darüber hinaus kann es „noch nie dagewesene“ Szenen erzeugen, die für nachgelagerte Aufgaben als wichtig erachtet werden. In der Zukunft könnte die Kombination dieses Frameworks mit umfangreichen Internetdaten einen wichtigen Meilenstein für die effiziente Schulung von Robotern für den Einsatz in der realen Welt setzen.“

Pfaff verfasste den Artikel zusammen mit dem leitenden Autor Russ Tedrake, dem Toyota-Professor für Elektrotechnik und Informatik, Luft- und Raumfahrttechnik sowie Maschinenbau am MIT; ein Senior Vice President für große Verhaltensmodelle am Toyota Analysis Institute; und CSAIL-Hauptermittler. Weitere Autoren waren der Robotikforscher Hongkai Dai SM ’12, PhD ’16 des Toyota Analysis Institute; Teamleiter und leitender Forschungswissenschaftler Sergey Zakharov; und Shun Iwase, Doktorand an der Carnegie Mellon College. Ihre Arbeit wurde teilweise von Amazon und dem Toyota Analysis Institute unterstützt. Die Forscher stellten ihre Arbeit im September auf der Convention on Robotic Studying (CoRL) vor.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert