
Eine Arbeiterin in einer Autofabrik kann sich an den Lagerplatz erinnern, in dem sie am Abend zuvor ein teilweise zusammengebautes Bauteil zurückgelassen hat, und schnell dorthin zurückkehren, um es abzuholen. Aber Roboter, die möglicherweise Seite an Seite mit ihr arbeiten, würden Schwierigkeiten haben, dieselbe Artwork von „räumlich-zeitlichem“ Gedächtnis zu entwickeln und darauf zuzugreifen.
Jetzt haben MIT-Forscher ein Langzeitgedächtnis-Framework entwickelt, das es Robotern ermöglicht, schnell ein detailliertes mentales Modell komplizierter, großräumiger Umgebungen zu bilden und abzurufen.
In Zukunft könnte dieser Fortschritt es dem Fabrikarbeiter ermöglichen, einen Roboterassistenten zum Abholen des Artikels zu schicken, indem er ihn einfach auffordert, „die Komponente zu holen, mit deren Montage wir gestern Abend begonnen haben“.
Diese neue Methode kombiniert fortschrittliche Kartendarstellungen mit ausführlichen Beschreibungen der Umgebung, die der Roboter auf seiner Reise über einen langen Zeitraum sammelt. Auf diesen Speicher kann der Roboter schnell zugreifen, um komplexe Fragen zu seiner Umgebung im Klartext zu beantworten.
Dieses Speicher-Framework, das Fragen genauer beantwortet als modernste Methoden, läuft schnell genug, damit ein mobiler Roboter es in Echtzeit nutzen kann.
Zusätzlich zu ihren potenziellen Einsatzmöglichkeiten in der Robotik könnte diese Methode in Augmented-Actuality-Systemen Anwendung finden, die Wartungsarbeitern bei der Erkennung von Anomalien oder Pendlern bei der Wegfindung helfen.
„Wenn wir wollen, dass Roboter Seite an Seite mit Menschen arbeiten und besser mit Menschen interagieren, müssen sie dieselbe Sprache sprechen. Der Roboter muss in der Lage sein, über Zeit und Raum auf die gleiche Weise zu denken wie Menschen. Genau das macht unsere Methode im Wesentlichen. Sie wandelt eine traditionelle Karte in eine sprachbasierte Karte um, die für den Roboter einfacher zu denken und mithilfe von Sprache leichter zugänglich ist“, sagt Luca Carlone, außerordentlicher Professor an der Abteilung für Luft- und Raumfahrttechnik (AeroAstro) des MIT und leitender Forscher im Labor für Data und Entscheidungssysteme (LIDS) und Direktor des MIT SPARK Laboratory.
Er ist dabei Papier vom Hauptautor Nicolas Gorlo, einem MIT-Absolventen; und Lukas Schmid, ehemaliger Forscher am MIT und jetzt Professor an der Technischen Universität Nürnberg in Deutschland. Die Forschung wurde kürzlich auf der Convention on Pc Imaginative and prescient and Sample Recognition (CVPR) vorgestellt.
Raumzeitliches Gedächtnis
Das Gedächtnis ermöglicht es einem künstlichen Intelligenzsystem, wie einem Chatbot, komplexe Fragen zu beantworten und über frühere Interaktionen mit seinem Benutzer nachzudenken.
„Wir wollen eine neue Artwork von Gedächtnis entwerfen, ein raumzeitliches Gedächtnis, das es einem KI-gesteuerten Roboter ermöglicht, sich an reale Interaktionen und Sensorbeobachtungen zu erinnern. Wie ChatGPT, aber in der realen Welt verankert und in der Lage, jede Frage über die Umgebung zu beantworten, wie zum Beispiel ‚Wo habe ich meine Brieftasche gelassen?‘“, sagt Carlone.
Um ein solches Speicher-Framework zu entwickeln, haben die MIT-Forscher zwei Arbeitsbereiche miteinander verbunden: Pc Imaginative and prescient und Robotic Mapping.
Multimodale Pc-Imaginative and prescient-Modelle können die Objekte in einer Szene verstehen und umfassend beschreiben, verarbeiten jedoch häufig jeweils nur eine einzige Anmerkung. Auf der anderen Seite erstellen Roboter-Mapping-Frameworks 3D-Karten einer Umgebung, etwa einer ganzen Wohnung oder eines Universitätscampus, aber in der Regel fehlen detaillierte Beschreibungen von Objekten oder sie sind rechenintensiv.
Die von den MIT-Forschern entwickelte Methode namens Describe Something, Wherever, Anytime, at Any Second (DAAAM) nutzt das Beste aus beiden Ansätzen.
Wenn ein Roboter mithilfe von DAAAM seine Umgebung durchquert, fügt er den Objekten, die er sieht, ausführliche Beschreibungen hinzu. Beispielsweise kann der Roboter feststellen, dass ein bestimmtes Gebäude auf dem MIT-Campus Stata Heart heißt und mit einer bestimmten Architektur entworfen wurde, oder dass ein Fahrradständer fünf Fahrräder fasst und das rote einen platten Reifen hat.
Diese detaillierten Informationen werden in einer 3D-kartenbasierten Darstellung gespeichert, die räumlich angeordnet ist, sodass Objekte in separate Regionen gruppiert werden. Auf diese Weise kann sich der Roboter merken, dass das rote Fahrrad mit dem platten Reifen im Fahrradständer vor dem Stata Heart steht.
Aber bestehende Techniken, die derart umfangreiche Beschreibungen erfassen, benötigen in der Regel einige Sekunden, um einige Objekte mit Anmerkungen zu versehen. Dies ist für eine Echtzeitleistung zu langsam, da ein Roboter während der Erkundung in wenigen Minuten Hunderte von Objekten sehen könnte.
„Je schneller der Roboter dieses räumliche Gedächtnis aufbauen kann, desto effizienter wird er Aktionen in der Umgebung ausführen“, fügt Carlone hinzu.
Optimierung des Prozesses
Um die Arbeit zu beschleunigen, aggregiert DAAAM auf seiner Reise in der Nähe befindliche Objekte und verwendet eine Optimierungsmethode, um Schlüsselbilder zum Kommentieren auszuwählen. Hierbei handelt es sich um Bilder mit der klarsten Sicht auf mehrere Objekte, die es dem System ermöglichen, mehrere Elemente parallel gründlich zu beschreiben und so die Berechnung um das Zehnfache zu beschleunigen.
Während der Roboter den Raum erkundet, fügt er jeden Stapel von Anmerkungen mehreren Objekten an einem bestimmten Ort auf der 3D-Karte hinzu.
„Wir kommentieren jedes Objekt nur einmal, sodass unser Framework in sehr großen Umgebungen in Echtzeit ausgeführt werden kann. Und durch die Gruppierung von Objekten in Regionen kann es eine breite Palette von Anfragen zu Objekten und Standorten in der Umgebung beantworten“, erklärt Gorlo.
Sobald das System dieses räumliche Gedächtnis aufgebaut hat, muss es auf effiziente Weise Informationen aus einer riesigen Datenbank mit Objekten und Beschreibungen abrufen.
Um dies zu ermöglichen, nutzten die Forscher ein LLM, das auf verschiedene Instruments zurückgreift, die schnell spezifische Informationen abrufen und so Halluzinationen reduzieren können. Dadurch kann DAAAM eine Benutzeranfrage in nur wenigen Sekunden präzise beantworten.
Wenn man beispielsweise einen Roboter nach einer bestimmten Skulptur fragt, die er in der Nähe eines MIT-Campusgebäudes gesehen hat, kann DAAAM ein semantisches Suchtool verwenden, um Informationen basierend auf dem Wort „Skulptur“ abzurufen, oder ein anderes Device, um Informationen basierend auf dem Standort des Gebäudes abzurufen.
Beim Take a look at und Vergleich mit anderen Methoden struggle DAAAM je nach Fragetyp zwischen 21 und 53 Prozent genauer.
Zukünftig wollen die Forscher DAAAM erweitern, damit das System bedeutende Ereignisse in der Umgebung erfassen kann. Sie arbeiten auch daran, Vertrauensniveaus in die Antworten des Techniques einzubeziehen.
„Letztendlich wollen wir Roboter haben, die bei jeder Artwork von Aufgabe helfen können. Mit diesem Rahmen versuchen wir, die Grundlagen zu schaffen, um einen generalistischen Agenten zu ermöglichen, der alles tun kann, was Sie verlangen“, sagt Gorlo.
Diese Forschung wurde teilweise vom US Military Analysis Laboratory und dem Workplace of Naval Analysis finanziert. Carlone befindet sich derzeit im Sabbatical als Amazon Scholar; Dieser Artikel beschreibt die am MIT durchgeführte Arbeit und steht in keiner Verbindung zu Amazon.
