Eines Tages möchten Sie vielleicht, dass Ihr Haushaltsroboter eine Ladung schmutziger Wäsche nach unten trägt und sie in der Waschmaschine in der hintersten linken Ecke des Kellers ablegt. Der Roboter muss Ihre Anweisungen mit seinen visuellen Beobachtungen kombinieren, um die Schritte zu bestimmen, die er unternehmen muss, um diese Aufgabe zu erledigen.
Für einen KI-Agenten ist das leichter gesagt als getan. Aktuelle Ansätze nutzen oft mehrere handgefertigte maschinelle Lernmodelle, um verschiedene Teile der Aufgabe zu bewältigen, deren Erstellung viel menschliche Anstrengung und Fachwissen erfordert. Diese Methoden, die visuelle Darstellungen verwenden, um Navigationsentscheidungen direkt zu treffen, erfordern riesige Mengen visueller Daten für das Coaching, die oft schwer zu bekommen sind.
Um diese Herausforderungen zu bewältigen, entwickelten Forscher vom MIT und dem MIT-IBM Watson AI Lab eine Navigationsmethode, die visuelle Darstellungen in Sprachteile umwandelt, die dann in ein großes Sprachmodell eingespeist werden, das alle Teile der mehrstufigen Navigationsaufgabe bewältigt.
Anstatt visuelle Merkmale aus Bildern der Umgebung eines Roboters als visuelle Darstellungen zu kodieren, was rechenintensiv wäre, erstellt ihre Methode Textbeschriftungen, die den Standpunkt des Roboters beschreiben. Ein großes Sprachmodell verwendet die Beschriftungen, um die Aktionen vorherzusagen, die ein Roboter ausführen sollte, um die sprachbasierten Anweisungen eines Benutzers auszuführen.
Da ihre Methode ausschließlich sprachbasierte Darstellungen verwendet, können sie mithilfe eines großen Sprachmodells effizient eine riesige Menge synthetischer Trainingsdaten generieren.
Dieser Ansatz übertrifft zwar nicht Techniken, die visuelle Merkmale verwenden, funktioniert aber intestine in Situationen, in denen nicht genügend visuelle Daten für das Coaching vorhanden sind. Die Forscher fanden heraus, dass die Kombination ihrer sprachbasierten Eingaben mit visuellen Signalen zu einer besseren Navigationsleistung führt.
„Indem wir ausschließlich Sprache als Wahrnehmungsrepräsentation verwenden, ist unser Ansatz direkter. Da alle Eingaben als Sprache kodiert werden können, können wir eine für Menschen verständliche Flugbahn erzeugen“, sagt Bowen Pan, ein Doktorand der Elektrotechnik und Informatik (EECS) und Hauptautor eines Papier zu diesem Ansatz.
Zu Pans Co-Autoren gehören seine Beraterin Aude Oliva, Direktorin für strategisches Industrieengagement am MIT Schwarzman School of Computing, MIT-Direktorin des MIT-IBM Watson AI Lab und leitender Forschungswissenschaftler am Laptop Science and Synthetic Intelligence Laboratory (CSAIL); Philip Isola, außerordentlicher Professor der EECS und Mitglied der CSAIL; leitender Autor Yoon Kim, Assistenzprofessor der EECS und Mitglied der CSAIL; und weitere am MIT-IBM Watson AI Lab und am Dartmouth School. Die Forschungsergebnisse werden auf der Konferenz des nordamerikanischen Kapitels der Affiliation for Computational Linguistics vorgestellt.
Ein Sehproblem mit Sprache lösen
Da große Sprachmodelle die leistungsstärksten verfügbaren Modelle für maschinelles Lernen seien, versuchten die Forscher, sie in die komplexe Aufgabe der visuellen und sprachlichen Navigation zu integrieren, sagt Pan.
Solche Modelle akzeptieren jedoch textbasierte Eingaben und können visuelle Daten von der Kamera eines Roboters nicht verarbeiten. Daher musste das Crew einen Weg finden, stattdessen Sprache zu verwenden.
Ihre Technik verwendet ein einfaches Untertitelmodell, um Textbeschreibungen der visuellen Beobachtungen eines Roboters zu erhalten. Diese Untertitel werden mit sprachbasierten Anweisungen kombiniert und in ein großes Sprachmodell eingespeist, das entscheidet, welchen Navigationsschritt der Roboter als nächstes ausführen soll.
Das große Sprachmodell gibt eine Bildunterschrift der Szene aus, die der Roboter nach Abschluss dieses Schritts sehen sollte. Dies wird verwendet, um den Trajektorienverlauf zu aktualisieren, damit der Roboter verfolgen kann, wo er gewesen ist.
Das Modell wiederholt diese Prozesse, um eine Flugbahn zu generieren, die den Roboter Schritt für Schritt zu seinem Ziel führt.
Um den Prozess zu optimieren, entwickelten die Forscher Vorlagen, sodass die Beobachtungsinformationen dem Modell in einer standardisierten Type präsentiert werden – als eine Reihe von Entscheidungen, die der Roboter basierend auf seiner Umgebung treffen kann.
Eine Beschriftung könnte zum Beispiel lauten: „30 Grad hyperlinks von Ihnen ist eine Tür mit einer Topfpflanze daneben, hinter Ihnen ist ein kleines Büro mit einem Schreibtisch und einem Laptop“ usw. Das Modell wählt aus, ob sich der Roboter auf die Tür oder das Büro zubewegen soll.
„Eine der größten Herausforderungen bestand darin, herauszufinden, wie man diese Artwork von Informationen richtig in Sprache kodiert, damit der Agent versteht, um welche Aufgabe es sich handelt und wie er reagieren soll“, sagt Pan.
Vorteile der Sprache
Als sie diesen Ansatz testeten, stellten sie fest, dass er zwar die Leistung visueller Techniken nicht übertreffen konnte, aber mehrere Vorteile bot.
Erstens: Da die Synthese von Textual content weniger Rechenleistung erfordert als die von komplexen Bilddaten, kann ihre Methode zur schnellen Generierung synthetischer Trainingsdaten verwendet werden. In einem Take a look at generierten sie 10.000 synthetische Trajektorien auf der Grundlage von 10 realen, visuellen Trajektorien.
Die Technik kann auch die Lücke schließen, die einen in einer simulierten Umgebung trainierten Agenten daran hindern kann, in der realen Welt gute Leistungen zu erbringen. Diese Lücke entsteht oft, weil computergenerierte Bilder aufgrund von Elementen wie Beleuchtung oder Farbe ganz anders aussehen können als reale Szenen. Aber die Sprache, die ein synthetisches von einem realen Bild beschreibt, wäre viel schwieriger zu unterscheiden, sagt Pan.
Darüber hinaus sind die von ihrem Modell verwendeten Darstellungen für Menschen leichter zu verstehen, da sie in natürlicher Sprache verfasst sind.
„Wenn der Agent sein Ziel nicht erreicht, können wir leichter feststellen, wo und warum er versagt hat. Vielleicht sind die Verlaufsinformationen nicht klar genug oder die Beobachtung ignoriert einige wichtige Particulars“, sagt Pan.
Darüber hinaus ließ sich ihre Methode leichter auf verschiedene Aufgaben und Umgebungen anwenden, da sie nur eine Artwork von Eingabe verwendet. Solange Daten als Sprache kodiert werden können, können sie dasselbe Modell ohne Änderungen verwenden.
Ein Nachteil besteht jedoch darin, dass bei ihrer Methode natürlich einige Informationen verloren gehen, die von visuellen Modellen erfasst würden, beispielsweise Tiefeninformationen.
Die Forscher waren jedoch überrascht, dass die Kombination sprachbasierter Darstellungen mit visuellen Methoden die Navigationsfähigkeit eines Agenten verbessert.
„Vielleicht bedeutet dies, dass die Sprache Informationen auf höherer Ebene erfassen kann, die mit rein visuellen Merkmalen nicht erfasst werden können“, sagt er.
Dies ist ein Bereich, den die Forscher weiter erforschen möchten. Sie möchten auch einen navigationsorientierten Untertiteler entwickeln, der die Leistung der Methode steigern könnte. Darüber hinaus möchten sie die Fähigkeit großer Sprachmodelle untersuchen, räumliches Bewusstsein zu zeigen und herauszufinden, wie dies die sprachbasierte Navigation unterstützen könnte.
Diese Forschung wird zum Teil vom MIT-IBM Watson AI Lab finanziert.