
Stellen Sie sich vor, Sie arbeiten irgendwann in naher Zukunft in einem Lagerhaus oder Büro und werden gebeten, einem neuen Auszubildenden dabei zu helfen, die Grundlagen seines Jobs zu erlernen. Der Haken: Es ist ein Roboter. Um es ihnen beizubringen, möchten Sie vielleicht ein „Zeigen und Erzählen“-Spiel spielen – das heißt, Sie zeigen körperlich, wie man etwas auf verschiedene Arten macht, und erklären gleichzeitig, was Sie tun.
Nehmen wir an, Sie haben den Roboter gebeten, während eines Zoom-Anrufs Kaffee auf Ihren Schreibtisch zu stellen, ohne Sie zu stören. Sie möchten, dass der Roboter Ihnen und dem Laptop computer nicht zu nahe kommt, damit er Ihr Assembly nicht stört. Um dieses Verhalten zu ermöglichen, sollte der Roboter mit Daten trainiert werden, die die vollständige Aufgabe klar veranschaulichen. Informatiker haben versucht, Robotern Manipulationsaufgaben zu erklären, indem sie zahlreiche physische Demonstrationen aufzeichneten oder ausführliche Anweisungen verfassten. Wenn Sie jedoch nicht über beides verfügen, ist es wahrscheinlich, dass die Maschine falsch versteht, was sie tun soll.
Für Menschen ist es mühsam, all das zu zeigen und zu erzählen, daher haben Forscher am Laptop Science and Synthetic Intelligence Laboratory (CSAIL) des MIT den Prozess des Unterrichtens eines Roboters automatisiert, während sie Anweisungen automatisch verdeutlichen und quick fünfmal weniger Demonstrationsdaten verwenden. Ihr Ansatz „Masked Inverse Reinforcement Studying“ (Masked IRL) verwendet ein großes Sprachmodell (LLM), um mehrdeutige Eingabeaufforderungen auf der Grundlage der in der Demo eines Benutzers gesammelten Daten auszuarbeiten. Ein weiteres LLM schränkt dann ein, welche Particulars ein Algorithmus in einen Bewegungsplan integrieren sollte, damit ein Roboter Aufgaben in Häusern, Büros und Fabriken sicher erledigen kann.
„Unser Ansatz könnte nützlich sein, wenn ein Mensch mit einem Roboter interagiert, aber nicht alle Particulars einer Aufgabe darlegen möchte“, sagt MIT-Doktorand und CSAIL-Forscher Minyoung Hwang, der Hauptautor eines Buches ist Papier das Projekt vorstellen. „Wir minimieren den menschlichen Aufwand, indem wir es Maschinen ermöglichen, herauszufinden, was Benutzer wirklich wollen.“
Laut Hwang kann Masked IRL Robotern dabei helfen, sich sicher in Umgebungen zu manövrieren, in denen es Elemente gibt, die ein Mensch möglicherweise nicht in einer Eingabeaufforderung beschreibt, die aber dennoch von entscheidender Bedeutung sind. Beispielsweise weiß ein Automat, der Ihnen einen Snack aus der Küche holt, möglicherweise nicht, wie er vermeiden soll, gegen Ihren Laptop computer zu stoßen. Ebenso muss ein Fabrikroboter, der Gegenstände in verschiedene Kartons legt, sorgfältig durch Regale navigieren.
Um in diesen Situationen neue Aufgaben zu erlernen, nutzt Masked IRL die Sensoren des Roboters, um Informationen über seine Umgebung zu erfassen. Diese Komponenten protokollieren auch jede Bewegung einer kinästhetischen Demonstration – einem Trainingsansatz, bei dem ein Mensch einen Roboter physisch bewegt, um eine bestimmte Aktion auszuführen. Es ist so, als wäre man der Physiotherapeut der Maschine und beugt die Gelenke in eine bestimmte Richtung, um einem Roboter zu zeigen, wie er Objekte greift, bewegt und platziert.
Das MIT-System ruft dann ein LLM auf, um diesen Bewegungsablauf (Trajektorie genannt) mit dem kürzestmöglichen Weg zu vergleichen. Das Modell geht auch darauf ein, was in einer Aufforderung unklar sein könnte, und wandelt eine Aufforderung wie „Bleib in der Nähe“ in „Bleib nahe an der Tischoberfläche“ um. Anhand des Flugbahnvergleichs und der geklärten Richtungen beginnt das LLM zu verstehen, warum die Bewegungen, auf die es trainiert wurde, für die Aufgabe wichtig sind.
Ein zweites LLM wertet dann Particulars der Umgebung aus, etwa die Place von Hindernissen und die Type des Zielobjekts des Roboters. Während dieses Vorgangs „maskiert“ (mit anderen Worten: ignoriert) die Elemente, die es für die jeweilige Aufgabe als irrelevant erachtet, und bewertet jedes einzelne entweder mit „1“ (wichtig) oder „0“ (nicht so sehr). Ob sich beispielsweise ein Benutzer während einer Demonstration auf einen Tisch stützte oder nicht, wäre eine „0“ und somit irrelevant. Jedes als „1“ eingestufte Element wird durch einen Algorithmus in den endgültigen Aktionsplan integriert.
Diese Masken verschafften Masked IRL sowohl in 3D- als auch in realen Demos einen entscheidenden Vorteil gegenüber vergleichbaren Baselines, da sie einem Roboter beibrachten, welche Informationen er priorisieren sollte. Dank des Programs der Forscher waren sowohl virtuelle als auch reale Roboter in der Lage, Objekte geschickt um Hindernisse herum zu manövrieren, beispielsweise um eine Kaffeetasse um einen Laptop computer herum an verschiedene Stellen auf einem Tisch zu bewegen. Bei diesen Aufgaben identifizierte Masked IRL die Präferenzen der Benutzer, die sie in ihren Eingabeaufforderungen nicht explizit angaben, bis zu 15 Prozent häufiger korrekt als vergleichbare Baselines.
Bei Simulationsexperimenten stellten CSAIL-Forscher außerdem fest, dass Masked IRL schnell lernte. Um zu verstehen, wie man den Becher bewegt, waren weniger Demos erforderlich als bei den Grundversionen. Sie fanden außerdem heraus, dass die Roboter eine bessere Leistung erbrachten, wenn ein LLM Anweisungen klärte, anstatt die Maschine versuchen zu lassen, einer vagen Anforderung zu folgen.
Dieser fokussiertere Ansatz ließ sich auch intestine auf einen echten Roboterarm übertragen, der Eingabeaufforderungen ausführte, die das System während seiner Trainingsphase nicht gesehen hatte. Nachdem der Roboter 50 kinästhetische Demonstrationen absolviert hatte, bewegte er vorsichtig eine Tasse auf einen Menschen zu und vermied dabei eine Kollision mit dem Laptop eines Benutzers – ein Hindernis, das er zu umgehen lernte, indem er eine allgemeinere Aufforderung ausarbeitete: „Bleib weg.“ Es wischte auch einen Tisch ab, während es „in seiner Nähe“ blieb, und reichte einem Benutzer eine Tüte Chips, während es sich sowohl von einem Menschen als auch von einem Tisch „fernhielt“.
Masked IRL spürt und erklärt, was Benutzer unausgesprochen lassen, aber bald könnte es es auch „sehen“. CSAIL-Forscher planen, ihren Ansatz dynamischer zu gestalten, indem sie ihn mit Kameras ausstatten, die es einem Roboter ermöglichen, Bilder seiner Umgebung aufzunehmen. Dann könnte es bestimmte Elemente in der Nähe hervorheben und sich darauf konzentrieren. Wenn Sie die Maschine beispielsweise bitten, ein Spielzeug aufzunehmen, sieht sie möglicherweise einige Bananen in der Nähe und ignoriert sie, bevor sie das Zielobjekt anfasst.
Hwang schrieb die Arbeit zusammen mit drei CSAIL-Kollegen: der Doktorandin Alexandra Forsey-Smerek ’20, SM ’22; Postdoktorand Nathaniel Dennler; und MIT-Assistenzprofessorin Andreea Bobu, die Mitglied der Abteilung für Luft- und Raumfahrt und CSAIL ist. Ihre Arbeit wurde teilweise von der Tata Group über den MIT Generative AI Impression Consortium Award und dem Verteidigungsministerium unterstützt. Sie werden das Projekt im Juni auf der IEEE Worldwide Convention on Robotics and Automation 2026 vorstellen.
