Für Robotiker übersteigt eine Herausforderung alle anderen: die Verallgemeinerung – die Fähigkeit, Maschinen zu entwickeln, die sich an jede Umgebung und jeden Zustand anpassen können. Seit den 1970er Jahren hat sich das Fachgebiet vom Schreiben anspruchsvoller Programme hin zum Einsatz von Deep Studying weiterentwickelt, bei dem Robotern beigebracht wird, direkt aus menschlichem Verhalten zu lernen. Es bleibt jedoch ein kritischer Engpass: die Datenqualität. Um sich zu verbessern, müssen Roboter mit Szenarien konfrontiert werden, die die Grenzen ihrer Fähigkeiten überschreiten und an der Grenze ihrer Meisterschaft agieren. Dieser Prozess erfordert traditionell die Aufsicht eines Menschen, wobei die Bediener die Roboter vorsichtig herausfordern, ihre Fähigkeiten zu erweitern. Da Roboter immer ausgefeilter werden, stößt dieser praktische Ansatz auf ein Skalierungsproblem: Der Bedarf an hochwertigen Trainingsdaten übersteigt bei weitem die Fähigkeit des Menschen, diese bereitzustellen.
Jetzt hat ein Crew von Forschern des MIT Laptop Science and Synthetic Intelligence Laboratory (CSAIL) einen neuartigen Ansatz für das Robotertraining entwickelt, der den Einsatz anpassungsfähiger, intelligenter Maschinen in realen Umgebungen erheblich beschleunigen könnte. Das neue System mit dem Namen „LucidSim„ nutzt die jüngsten Fortschritte bei generativer KI und Physiksimulatoren, um vielfältige und realistische virtuelle Trainingsumgebungen zu schaffen und Robotern dabei zu helfen, bei schwierigen Aufgaben eine Leistung auf Expertenniveau zu erzielen, ohne dass reale Daten erforderlich sind.
LucidSim kombiniert physikalische Simulation mit generativen KI-Modellen und geht damit eine der hartnäckigsten Herausforderungen in der Robotik an: die Übertragung von in der Simulation erlernten Fähigkeiten auf die reale Welt. „Eine grundlegende Herausforderung beim Roboterlernen ist seit langem die ‚Sim-to-Actual-Lücke‘ – die Diskrepanz zwischen simulierten Trainingsumgebungen und der komplexen, unvorhersehbaren realen Welt“, sagt MIT CSAIL-Postdoc Ge Yang, ein leitender Forscher bei LucidSim. „Frühere Ansätze stützten sich oft auf Tiefensensoren, was das Downside vereinfachte, aber entscheidende Komplexitäten der realen Welt außer Acht ließ.“
Das mehrgleisige System ist eine Mischung verschiedener Technologien. Im Kern nutzt LucidSim große Sprachmodelle, um verschiedene strukturierte Beschreibungen von Umgebungen zu generieren. Diese Beschreibungen werden dann mithilfe generativer Modelle in Bilder umgewandelt. Um sicherzustellen, dass diese Bilder die reale Physik widerspiegeln, wird ein zugrunde liegender Physiksimulator verwendet, der den Generierungsprozess steuert.
Die Geburt einer Idee: Von Burritos zu Durchbrüchen
Die Inspiration für LucidSim kam von einem unerwarteten Ort: einem Gespräch außerhalb der Beantown Taqueria in Cambridge, Massachusetts. „Wir wollten Robotern mit Imaginative and prescient beibringen, wie sie sich durch menschliches Suggestions verbessern können. Aber dann wurde uns klar, dass wir von Anfang an keine rein visionsbasierte Politik hatten“, sagt Alan Yu, Pupil der Elektrotechnik und Informatik (EECS) am MIT und Co-Hauptautor von LucidSim. „Wir redeten weiter darüber, während wir die Straße entlanggingen, und blieben dann etwa eine halbe Stunde vor der Taqueria stehen. Da hatten wir unseren Second.“
Um ihre Daten aufzubereiten, generierte das Crew realistische Bilder, indem es aus der simulierten Szene Tiefenkarten extrahierte, die geometrische Informationen liefern, und semantische Masken, die verschiedene Teile eines Bildes kennzeichnen. Sie stellten jedoch schnell fest, dass das Modell bei strenger Kontrolle der Zusammensetzung des Bildinhalts ähnliche Bilder erzeugen würde, die sich nicht voneinander unterschieden, und zwar mit derselben Eingabeaufforderung. Deshalb haben sie eine Möglichkeit entwickelt, verschiedene Textaufforderungen von ChatGPT zu beziehen.
Dieser Ansatz führte jedoch nur zu einem einzigen Bild. Um kurze, zusammenhängende Movies zu erstellen, die als kleine „Erlebnisse“ für den Roboter dienen, haben die Wissenschaftler etwas Bildmagie in eine andere neuartige Technik namens „Goals In Movement“ integriert, die das Crew entwickelt hat. Das System berechnet die Bewegungen jedes Pixels zwischen den Bildern, um ein einzelnes generiertes Bild in ein kurzes Video mit mehreren Bildern zu verwandeln. Goals In Movement erreicht dies, indem es die 3D-Geometrie der Szene und die relativen Änderungen in der Perspektive des Roboters berücksichtigt.
„Wir übertreffen die Domänenrandomisierung, eine 2017 entwickelte Methode, die zufällige Farben und Muster auf Objekte in der Umgebung anwendet und die heutzutage immer noch als die Methode der Wahl gilt“, sagt Yu. „Obwohl diese Technik vielfältige Daten generiert, mangelt es ihr an Realismus. LucidSim befasst sich sowohl mit Diversitäts- als auch mit Realismusproblemen. Es ist spannend, dass der Roboter Hindernisse in realen Umgebungen erkennen und überwinden kann, auch ohne die reale Welt während des Trainings zu sehen.“
Das Crew ist besonders begeistert von dem Potenzial, LucidSim auf Bereiche außerhalb der Vierbeiner-Fortbewegung und Parkour, ihrem Haupttestfeld, anzuwenden. Ein Beispiel ist die cell Manipulation, bei der ein mobiler Roboter die Aufgabe hat, Objekte in einem offenen Bereich zu handhaben; Auch die Farbwahrnehmung ist entscheidend. „Heute lernen diese Roboter immer noch durch Demonstrationen in der realen Welt“, sagt Yang. „Obwohl das Sammeln von Demonstrationen einfach ist, ist die Skalierung eines realen Roboter-Teleoperationsaufbaus auf Tausende von Fähigkeiten eine Herausforderung, da ein Mensch jede Szene physisch aufbauen muss. Wir hoffen, dies einfacher und damit qualitativ skalierbarer zu machen, indem wir die Datenerfassung in eine virtuelle Umgebung verlagern.“
Wer ist der wahre Experte?
Das Crew stellte LucidSim im Vergleich zu einer Various auf die Probe, bei der ein erfahrener Lehrer die Fähigkeiten demonstrierte, von denen der Roboter lernen kann. Die Ergebnisse waren überraschend: Roboter, die vom Experten trainiert wurden, hatten Schwierigkeiten und waren nur in 15 Prozent der Fälle erfolgreich – und selbst eine Vervierfachung der Menge an Expertentrainingsdaten brachte kaum etwas. Doch als Roboter über LucidSim ihre eigenen Trainingsdaten sammelten, änderte sich die Geschichte dramatisch. Allein die Verdoppelung der Datensatzgröße katapultierte die Erfolgsquote auf 88 Prozent. „Und wenn wir unserem Roboter monoton mehr Daten geben, verbessert sich seine Leistung – schließlich wird der Schüler zum Experten“, sagt Yang.
„Eine der größten Herausforderungen beim Sim-to-Actual-Switch für die Robotik besteht darin, in simulierten Umgebungen visuellen Realismus zu erreichen“, sagt Shuran Track, Assistenzprofessor für Elektrotechnik an der Stanford College, der nicht an der Forschung beteiligt warfare. „Das LucidSim-Framework bietet eine elegante Lösung, indem es generative Modelle verwendet, um vielfältige, äußerst realistische visuelle Daten für jede Simulation zu erstellen. Diese Arbeit könnte den Einsatz von in virtuellen Umgebungen trainierten Robotern für reale Aufgaben erheblich beschleunigen.“
Von den Straßen von Cambridge bis zum neuesten Stand der Robotikforschung ebnet LucidSim den Weg für eine neue Era intelligenter, anpassungsfähiger Maschinen – Maschinen, die lernen, sich in unserer komplexen Welt zurechtzufinden, ohne sie jemals zu betreten.
Yu und Yang haben das Papier zusammen mit vier anderen CSAIL-Partnern geschrieben: Ran Choi, ein MIT-Postdoc im Maschinenbau; Yajvan Ravan, ein MIT-Pupil in EECS; John Leonard, Samuel C. Collins-Professor für Maschinenbau und Meerestechnik an der MIT-Abteilung für Maschinenbau; und Phillip Isola, außerordentlicher Professor für EECS am MIT. Ihre Arbeit wurde teilweise durch ein Packard Fellowship, ein Sloan Analysis Fellowship, das Workplace of Naval Analysis, die Defence Science and Know-how Company Singapurs, Amazon, das MIT Lincoln Laboratory und das Nationwide Science Basis Institute for Synthetic Intelligence and Basic Interactions unterstützt. Die Forscher stellten ihre Arbeit Anfang November auf der Convention on Robotic Studying (CoRL) vor.