Im klassischen Zeichentrickfilm „The Jetsons“ wechselt Rosie, das Robotermädchen, nahtlos vom Staubsaugen des Hauses über das Kochen des Abendessens bis hin zum Herausbringen des Mülls. Aber im wirklichen Leben bleibt die Ausbildung eines Allzweckroboters eine große Herausforderung.
In der Regel sammeln Ingenieure Daten, die für einen bestimmten Roboter und eine bestimmte Aufgabe spezifisch sind, und verwenden diese, um den Roboter in einer kontrollierten Umgebung zu trainieren. Das Sammeln dieser Daten ist jedoch kostspielig und zeitaufwändig, und der Roboter wird wahrscheinlich Schwierigkeiten haben, sich an Umgebungen oder Aufgaben anzupassen, die er noch nie zuvor gesehen hat.
Um bessere Allzweckroboter zu trainieren, haben MIT-Forscher eine vielseitige Technik entwickelt, die eine große Menge heterogener Daten aus vielen Quellen in einem System kombiniert, das jedem Roboter eine breite Palette von Aufgaben beibringen kann.
Ihre Methode besteht darin, Daten aus verschiedenen Bereichen, wie Simulationen und realen Robotern, und mehreren Modalitäten, einschließlich Imaginative and prescient-Sensoren und Positionsgebern für Roboterarme, in einer gemeinsamen „Sprache“ zusammenzuführen, die ein generatives KI-Modell verarbeiten kann.
Durch die Kombination einer solch enormen Datenmenge kann dieser Ansatz verwendet werden, um einem Roboter beizubringen, eine Vielzahl von Aufgaben auszuführen, ohne ihn jedes Mal von Grund auf neu trainieren zu müssen.
Diese Methode könnte schneller und kostengünstiger sein als herkömmliche Techniken, da sie weitaus weniger aufgabenspezifische Daten erfordert. Darüber hinaus übertraf es das Coaching von Grund auf in Simulationen und realen Experimenten um mehr als 20 Prozent.
„In der Robotik wird oft behauptet, dass wir nicht genügend Trainingsdaten haben. Ein weiteres großes Downside besteht meiner Ansicht nach jedoch darin, dass die Daten aus so vielen verschiedenen Bereichen, Modalitäten und Roboterhardware stammen. Unsere Arbeit zeigt, wie man einen Roboter trainieren kann, wenn alle Komponenten zusammengenommen sind“, sagt Lirui Wang, ein Doktorand der Elektrotechnik und Informatik (EECS) und Hauptautor eines Buches Papier über diese Technik.
Zu Wangs Co-Autoren gehören der EECS-Kollege Jialiang Zhao; Xinlei Chen, Forschungswissenschaftlerin bei Meta; und der leitende Autor Kaiming He, außerordentlicher Professor für EECS und Mitglied des Pc Science and Synthetic Intelligence Laboratory (CSAIL). Die Forschung wird auf der Konferenz über neuronale Informationsverarbeitungssysteme vorgestellt.
Inspiriert von LLMs
Eine Roboter-„Richtlinie“ erfasst Sensorbeobachtungen wie Kamerabilder oder propriozeptive Messungen, die die Geschwindigkeit und Place eines Roboterarms verfolgen, und teilt einem Roboter dann mit, wie und wohin er sich bewegen soll.
Richtlinien werden in der Regel durch Nachahmungslernen trainiert, was bedeutet, dass ein Mensch Aktionen demonstriert oder einen Roboter teleoperiert, um Daten zu generieren, die in ein KI-Modell eingespeist werden, das die Richtlinie lernt. Da diese Methode eine kleine Menge aufgabenspezifischer Daten verwendet, versagen Roboter häufig, wenn sich ihre Umgebung oder Aufgabe ändert.
Um einen besseren Ansatz zu entwickeln, ließen sich Wang und seine Mitarbeiter von großen Sprachmodellen wie GPT-4 inspirieren.
Diese Modelle werden mit einer enormen Menge unterschiedlicher Sprachdaten vorab trainiert und anschließend durch Eingabe einer kleinen Menge aufgabenspezifischer Daten verfeinert. Das Vortraining auf so vielen Daten hilft den Modellen, sich an eine gute Leistung bei einer Vielzahl von Aufgaben anzupassen.
„Im Sprachbereich sind die Daten alle nur Sätze. In der Robotik benötigen wir angesichts der Heterogenität der Daten eine andere Architektur, wenn man auf ähnliche Weise vorab trainieren möchte“, sagt er.
Roboterdaten können viele Formen annehmen, von Kamerabildern über Sprachanweisungen bis hin zu Tiefenkarten. Gleichzeitig ist jeder Roboter mechanisch einzigartig und verfügt über eine unterschiedliche Anzahl und Ausrichtung von Armen, Greifern und Sensoren. Darüber hinaus sind die Umgebungen, in denen Daten erfasst werden, sehr unterschiedlich.
Die MIT-Forscher entwickelten eine neue Architektur namens Heterogeneous Pretrained Transformers (HPT), die Daten aus diesen verschiedenen Modalitäten und Domänen vereinheitlicht.
Sie setzen in der Mitte ihrer Architektur ein maschinelles Lernmodell namens Transformer ein, das visuelle und propriozeptive Eingaben verarbeitet. Ein Transformator ist derselbe Modelltyp, der das Rückgrat großer Sprachmodelle bildet.
Die Forscher ordnen Daten aus Imaginative and prescient und Propriozeption in derselben Artwork von Eingabe, einem sogenannten Token, zusammen, den der Transformator verarbeiten kann. Jeder Eingang wird mit der gleichen festen Anzahl von Token repräsentiert.
Dann ordnet der Transformator alle Eingaben einem gemeinsamen Raum zu und wächst zu einem riesigen, vorab trainierten Modell heran, während er mehr Daten verarbeitet und daraus lernt. Je größer der Transformator wird, desto besser ist seine Leistung.
Ein Benutzer muss HPT nur eine kleine Datenmenge über das Design, die Einrichtung und die Aufgabe seines Roboters übermitteln, die er ausführen soll. Anschließend überträgt HPT das Wissen, das der Transformator während des Vortrainings erworben hat, um die neue Aufgabe zu erlernen.
Ermöglicht geschickte Bewegungen
Eine der größten Herausforderungen bei der Entwicklung von HPT struggle der Aufbau des riesigen Datensatzes zum Vortraining des Transformators, der 52 Datensätze mit mehr als 200.000 Robotertrajektorien in vier Kategorien umfasste, einschließlich menschlicher Demovideos und Simulationen.
Die Forscher mussten außerdem eine effiziente Methode entwickeln, um rohe Propriozeptionssignale von einer Reihe von Sensoren in Daten umzuwandeln, die der Transformator verarbeiten kann.
„Propriozeption ist der Schlüssel, um viele geschickte Bewegungen zu ermöglichen. Da die Anzahl der Token in unserer Architektur immer gleich ist, legen wir den gleichen Wert auf Propriozeption und Imaginative and prescient“, erklärt Wang.
Als sie HPT testeten, verbesserte es die Roboterleistung bei Simulationen und realen Aufgaben jedes Mal um mehr als 20 Prozent im Vergleich zu einem Coaching von Grund auf. Selbst wenn sich die Aufgabe stark von den Daten vor dem Coaching unterschied, verbesserte HPT dennoch die Leistung.
„Dieses Papier bietet einen neuartigen Ansatz zum Trainieren einer einzelnen Richtlinie über mehrere Roboterausführungen hinweg. Dies ermöglicht das Coaching über verschiedene Datensätze hinweg und ermöglicht es Roboterlernmethoden, die Größe der Datensätze, auf denen sie trainieren können, deutlich zu vergrößern. Dadurch kann sich das Modell auch schnell an neue Roboterausführungen anpassen, was wichtig ist, da ständig neue Roboterdesigns hergestellt werden“, sagt David Held, außerordentlicher Professor am Robotics Institute der Carnegie Mellon College, der nicht an dieser Arbeit beteiligt struggle.
Zukünftig wollen die Forscher untersuchen, wie Datenvielfalt die Leistung von HPT steigern könnte. Sie möchten HPT außerdem so verbessern, dass es unbeschriftete Daten wie GPT-4 und andere große Sprachmodelle verarbeiten kann.
„Unser Traum ist es, ein universelles Robotergehirn zu haben, das Sie ohne jegliche Schulung herunterladen und für Ihren Roboter verwenden können. Auch wenn wir uns noch in einem frühen Stadium befinden, werden wir weiterhin hart arbeiten und hoffen, dass die Skalierung zu einem Durchbruch in der Roboterpolitik führt, wie es bei großen Sprachmodellen der Fall struggle“, sagt er.
Diese Arbeit wurde teilweise von der Amazon Larger Boston Tech Initiative und dem Toyota Analysis Institute finanziert.