Wenn Ihnen jemand rät, „Ihre Grenzen zu kennen“, schlägt er Ihnen wahrscheinlich vor, beispielsweise in Maßen Sport zu treiben. Für einen Roboter stellt das Motto jedoch Lernbeschränkungen oder Einschränkungen einer bestimmten Aufgabe innerhalb der Maschinenumgebung dar, um Aufgaben sicher und korrekt zu erledigen.

Stellen Sie sich zum Beispiel vor, Sie bitten einen Roboter, Ihre Küche zu reinigen, obwohl er die Physik seiner Umgebung nicht versteht. Wie kann die Maschine einen praktischen Mehrschrittplan erstellen, um sicherzustellen, dass der Raum makellos ist? Große Sprachmodelle (LLMs) können ihnen nahe kommen, aber wenn das Modell nur auf Textual content trainiert wird, werden ihm wahrscheinlich wichtige Particulars zu den physischen Einschränkungen des Roboters entgehen, etwa wie weit er reichen kann oder ob es in der Nähe Hindernisse gibt, die es zu vermeiden gilt. Bleiben Sie nur bei LLMs, und am Ende werden Sie wahrscheinlich Nudelflecken aus Ihren Dielen entfernen.

Um Roboter bei der Ausführung dieser Aufgaben mit offenem Ende zu unterstützen, verwendeten Forscher am Pc Science and Synthetic Intelligence Laboratory (CSAIL) des MIT Bildverarbeitungsmodelle, um zu sehen, was sich in der Nähe der Maschine befindet, und um ihre Einschränkungen zu modellieren. Die Strategie des Groups besteht darin, dass ein LLM einen Plan entwirft, der in einem Simulator überprüft wird, um sicherzustellen, dass er sicher und realistisch ist. Wenn diese Abfolge von Aktionen nicht durchführbar ist, generiert das Sprachmodell einen neuen Plan, bis es zu einem Plan kommt, den der Roboter ausführen kann.

Diese Trial-and-Error-Methode, die die Forscher „Planning for Robots through Code for Steady Constraint Satisfaction“ (PRoC3S) nennen, testet langfristige Pläne, um sicherzustellen, dass sie alle Einschränkungen erfüllen, und ermöglicht es einem Roboter, so unterschiedliche Aufgaben wie das Schreiben auszuführen einzelne Buchstaben, das Zeichnen eines Sterns sowie das Sortieren und Platzieren von Blöcken an verschiedenen Positionen. In Zukunft könnte PRoC3S Robotern dabei helfen, kompliziertere Aufgaben in dynamischen Umgebungen wie Häusern zu erledigen, wo sie möglicherweise aufgefordert werden, eine allgemeine Aufgabe zu erledigen, die aus vielen Schritten besteht (z. B. „Mach mir Frühstück“).

„LLMs und klassische Robotiksysteme wie Aufgaben- und Bewegungsplaner können diese Artwork von Aufgaben nicht alleine ausführen, aber zusammen ermöglichen ihre Synergien eine ergebnisoffene Problemlösung“, sagt Doktorand Nishanth Kumar SM ’24, Co-Leiter Autor eines neuen Artikels über PRoC3S. „Wir erstellen im laufenden Betrieb eine Simulation der Umgebung des Roboters und probieren viele mögliche Aktionspläne aus. Imaginative and prescient-Modelle helfen uns, eine sehr realistische digitale Welt zu schaffen, die es dem Roboter ermöglicht, für jeden Schritt eines langfristigen Plans über mögliche Maßnahmen nachzudenken.“

Die Arbeit des Groups wurde im vergangenen Monat in einem Papier vorgestellt, das auf der Convention on Robotic Studying (CoRL) in München, Deutschland, gezeigt wurde.

Video-Miniaturansicht

Video abspielen

Einem Roboter seine Grenzen für unbefristete Aufgaben beibringen
MIT CSAIL

Die Methode der Forscher verwendet ein LLM, das vorab auf Texten aus dem Web trainiert wurde. Bevor PRoC3S mit der Ausführung einer Aufgabe beauftragt wurde, stellte das Group seinem Sprachmodell eine Beispielaufgabe (z. B. das Zeichnen eines Quadrats) zur Verfügung, die mit der Zielaufgabe (Zeichnen eines Sterns) zusammenhängt. Die Beispielaufgabe umfasst eine Beschreibung der Aktivität, einen langfristigen Plan und relevante Particulars zur Umgebung des Roboters.

Doch wie haben sich diese Pläne in der Praxis bewährt? In Simulationen hat PRoC3S jeweils acht von zehn Malen erfolgreich Sterne und Buchstaben gezeichnet. Es könnte auch digitale Blöcke in Pyramiden und Linien stapeln und Gegenstände wie Früchte auf einem Teller präzise platzieren. In jeder dieser digitalen Demos erledigte die CSAIL-Methode die geforderte Aufgabe konsistenter als vergleichbare Ansätze „LLM3“ Und „Code als Richtlinien“.

Als nächstes brachten die CSAIL-Ingenieure ihren Ansatz in die reale Welt. Ihre Methode entwickelte und führte Pläne an einem Roboterarm aus und brachte ihm bei, Blöcke in geraden Linien anzuordnen. PRoC3S ermöglichte es der Maschine außerdem, blaue und rote Blöcke in passende Schüsseln zu legen und alle Objekte in die Nähe der Tischmitte zu bewegen.

Kumar und Co-Hauptautor Aidan Curtis SM ’23, der auch Doktorand bei CSAIL ist, sagen, dass diese Ergebnisse zeigen, wie ein LLM sicherere Pläne entwickeln kann, denen Menschen vertrauen können, dass sie in der Praxis funktionieren. Die Forscher stellen sich einen Heimroboter vor, dem eine allgemeinere Anfrage gestellt werden kann (wie „Carry mir ein paar Chips“) und der zuverlässig die spezifischen Schritte erkennt, die zu seiner Ausführung erforderlich sind. PRoC3S könnte einem Roboter helfen, Pläne in einer identischen digitalen Umgebung zu testen, um eine funktionierende Vorgehensweise zu finden – und, was noch wichtiger ist, Ihnen einen leckeren Snack zu bringen.

Für zukünftige Arbeiten wollen die Forscher die Ergebnisse mithilfe eines fortschrittlicheren Physiksimulators verbessern und sie mithilfe skalierbarerer Datensuchtechniken auf komplexere Aufgaben mit längerem Horizont erweitern. Darüber hinaus planen sie, PRoC3S auf cellular Roboter wie einen Vierbeiner für Aufgaben anzuwenden, die das Gehen und Scannen der Umgebung umfassen.

„Die Verwendung von Basismodellen wie ChatGPT zur Steuerung von Roboteraktionen kann aufgrund von Halluzinationen zu unsicherem oder falschem Verhalten führen“, sagt Eric Rosen, Forscher am AI Institute, der nicht an der Forschung beteiligt ist. „PRoC3S geht dieses Drawback an, indem es grundlegende Modelle für die Aufgabenführung auf hoher Ebene nutzt und gleichzeitig KI-Techniken einsetzt, die explizit über die Welt nachdenken, um nachweislich sichere und korrekte Aktionen sicherzustellen. Diese Kombination aus planungsbasierten und datengesteuerten Ansätzen könnte der Schlüssel zur Entwicklung von Robotern sein, die in der Lage sind, ein breiteres Spektrum an Aufgaben zu verstehen und zuverlässig auszuführen, als dies derzeit möglich ist.“

Die Co-Autoren von Kumar und Curtis sind ebenfalls CSAIL-Companion: der MIT-Studentenforscher Jing Cao und die MIT-Professoren für Elektrotechnik und Informatik Leslie Pack Kaelbling und Tomás Lozano-Pérez. Ihre Arbeit wurde teilweise von der Nationwide Science Basis, dem Air Pressure Workplace of Scientific Analysis, dem Workplace of Naval Analysis, dem Military Analysis Workplace, MIT Quest for Intelligence und dem AI Institute unterstützt.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert