Stellen Sie sich vor, ein Roboter hilft Ihnen, das Gerichte zu reinigen. Sie bitten es, eine Seifenschale aus dem Waschbecken zu holen, aber es ist der Greifer leicht die Marke.
Mit einem neuen Rahmen, das von MIT- und NVIDIA -Forschern entwickelt wurde, können Sie das Verhalten dieses Roboters mit einfachen Interaktionen korrigieren. Mit der Methode können Sie auf die Schüssel verweisen oder eine Flugbahn auf einem Bildschirm darauf verfolgen oder einfach dem Arm des Roboters in die richtige Richtung geben.
Im Gegensatz zu anderen Methoden zur Korrektur des Roboterverhaltens erfordert diese Technik nicht, dass Benutzer neue Daten sammeln und das maschinelle Lernmodell, das das Gehirn des Roboters mit Strom versorgt. Es ermöglicht einem Roboter, intuitive Echtzeit-Suggestions in Echtzeit zu verwenden, um eine realisierbare Aktionssequenz zu wählen, die so nah wie möglich ist, um die Absicht des Benutzers zu erfüllen.
Als die Forscher ihren Rahmen testeten, conflict die Erfolgsquote um 21 Prozent höher als eine different Methode, die keine menschlichen Interventionen nutzte.
Langfristig könnte dieses Framework einem Benutzer es ermöglichen, einen fabrisch ausgebildeten Roboter leichter zu leiten, um eine Vielzahl von Haushaltsaufgaben auszuführen, obwohl der Roboter sein Zuhause oder die Objekte darin noch nie gesehen hat.
„Wir können nicht erwarten, dass Laienpeople die Datenerfassung durchführen und ein neuronales Netzwerkmodell optimieren. Der Verbraucher erwartet, dass der Roboter direkt außerhalb der Field funktioniert, und wenn dies nicht der Fall ist, möchte er einen intuitiven Mechanismus, um ihn anzupassen. Das ist die Herausforderung, die wir in dieser Arbeit bewältigt haben “ Papier zu dieser Methode.
Zu seinen Mitautoren gehören Lirui Wang PhD ’24 und Yilun du PhD ’24; Senior -Autorin Julie Shah, MIT -Professorin für Luftfahrt und Astronautik und Direktor der Interactive Robotics Group im Labor für Informatik und künstliche Intelligenz (CSAIL); sowie Balakumar Sundaralingam, Xuning Yang, Yu-Wei Chao, Claudia Perez-D’Arpino PhD ’19 und Dieter Fox von Nvidia. Die Forschung wird auf der Internationalen Konferenz über Roboter und Automatisierung vorgestellt.
Mildernde Fehlausrichtung
In jüngster Zeit haben die Forscher begonnen, vorgebrachte generative KI-Modelle zu verwenden, um eine „Richtlinie“ oder eine Reihe von Regeln zu lernen, die ein Roboter befolgt, um eine Aktion auszuführen. Generative Modelle können mehrere komplexe Aufgaben lösen.
Während des Trainings sieht das Modell nur praktikable Roboterbewegungen, sodass es lernt, gültige Trajektorien zu generieren, damit der Roboter folgen kann.
Obwohl diese Flugbahnen gültig sind, bedeutet dies nicht, dass sie immer mit der Absicht eines Benutzers in der realen Welt übereinstimmen. Der Roboter wurde vielleicht geschult, um Kisten aus einem Regal zu holen, ohne sie umzuschlagen, aber es könnte die Schachtel auf dem Bücherregal eines anderen nicht erreichen, wenn das Regal anders ausgerichtet ist als die, die er im Coaching gesehen hat.
Um diese Fehler zu überwinden, sammeln Ingenieure in der Regel Daten, die die neue Aufgabe demonstrieren und das generative Modell neu ausbauen, einen kostspieligen und zeitaufwändigen Prozess, für das maschinelles Lernkompetenz erforderlich ist.
Stattdessen wollten die MIT -Forscher den Benutzern ermöglichen, das Verhalten des Roboters während des Einsatzes zu steuern, wenn er einen Fehler macht.
Wenn ein Mensch jedoch mit dem Roboter interagiert, um sein Verhalten zu korrigieren, kann dies versehentlich dazu führen, dass das generative Modell eine ungültige Aktion auswählt. Es könnte die Field erreichen, die der Benutzer will, aber klopfen Sie dabei Bücher aus dem Regal.
„Wir möchten dem Benutzer erlauben, mit dem Roboter zu interagieren, ohne solche Fehler einzuführen. Daher erhalten wir ein Verhalten, das während der Bereitstellung viel mehr mit der Benutzerabsicht ausgerichtet ist, aber das ist auch gültig und machbar“, sagt Wang.
Ihr Framework ermöglicht dies, indem sie dem Benutzer drei intuitive Möglichkeiten zur Korrektur des Verhaltens des Roboters bieten, von denen jede bestimmte Vorteile bietet.
Erstens kann der Benutzer auf das Objekt verweisen, das der Roboter in einer Schnittstelle manipulieren soll, die seine Kameraansicht anzeigt. Zweitens können sie eine Flugbahn in dieser Schnittstelle verfolgen, sodass sie angeben können, wie der Roboter das Objekt erreichen soll. Drittens können sie den Arm des Roboters physisch in die Richtung bewegen, die er folgen soll.
„Wenn Sie ein 2D -Bild der Umgebung in Aktionen im 3D -Bereich abbilden, gehen einige Informationen verloren. Das physikalische Stupeln des Roboters ist der direkteste Weg, um die Benutzerabsicht anzugeben, ohne die Informationen zu verlieren “, sagt Wang.
Probenahme für den Erfolg
Um sicherzustellen, dass diese Interaktionen nicht dazu führen, dass der Roboter eine ungültige Aktion auswählt, z. B. mit anderen Objekten, verwenden die Forscher ein spezifisches Stichprobenverfahren. Mit dieser Technik können das Modell eine Aktion aus dem Satz gültiger Aktionen auswählen, die am engsten mit dem Ziel des Benutzers in Einklang stehen.
„Anstatt nur den Willen des Benutzers aufzuerlegen, geben wir dem Roboter eine Vorstellung davon, was der Benutzer beabsichtigt, aber lassen Sie das Stichprobenverfahren um seine eigenen erlernten Verhaltensweisen schwingen“, erklärt Wang.
Diese Stichprobenmethode ermöglichte es dem Rahmen der Forscher, die anderen Methoden zu übertreffen, mit denen sie sie während Simulationen und Experimenten mit einem echten Roboterarm in einer Spielzeugküche verglichen haben.
Während ihre Methode die Aufgabe möglicherweise nicht immer erledigt, bietet sie den Benutzern den Vorteil, den Roboter sofort zu korrigieren, wenn sie etwas falsch machen, anstatt darauf zu warten, dass er fertig ist und ihm dann neue Anweisungen gibt.
Nachdem ein Benutzer den Roboter ein paar Mal annulliert, bis er die richtige Schüssel aufnimmt, könnte er diese Korrekturmaßnahme protokollieren und ihn durch zukünftige Schulungen in sein Verhalten einbeziehen. Am nächsten Tag konnte der Roboter dann die richtige Schüssel aufnehmen, ohne einen Schubs zu benötigen.
„Der Schlüssel zu dieser kontinuierlichen Verbesserung ist jedoch, dass der Benutzer mit dem Roboter interagieren, was wir hier gezeigt haben“, sagt Wang.
In Zukunft möchten die Forscher die Geschwindigkeit des Stichprobenverfahrens steigern und gleichzeitig ihre Leistung aufrechterhalten oder verbessern. Sie wollen auch mit der Generierung von Roboterpolitik in neuartigen Umgebungen experimentieren.