Stellen Sie sich vor, Sie müssten eine unordentliche Küche aufräumen, beginnend mit einer Arbeitsplatte, die mit Soßenpaketen übersät ist. Wenn Ihr Ziel darin besteht, die Theke sauber zu machen, fegen Sie die Pakete möglicherweise als Gruppe zusammen. Wenn Sie jedoch zuerst die Senfpäckchen heraussuchen und dann den Relaxation wegwerfen möchten, würden Sie differenzierter nach Soßentyp sortieren. Und wenn Sie unter den Senfsorten Lust auf Gray Poupon hätten, wäre die Suche nach dieser speziellen Marke eine sorgfältigere Suche.
MIT-Ingenieure haben eine Methode entwickelt, die es Robotern ermöglicht, ähnlich intuitive, aufgabenrelevante Entscheidungen zu treffen.
Der neue Ansatz des Groups mit dem Namen Clio ermöglicht es einem Roboter, angesichts der anstehenden Aufgaben die Teile einer Szene zu identifizieren, die wichtig sind. Mit Clio nimmt ein Roboter eine Liste von Aufgaben auf, die in natürlicher Sprache beschrieben sind, und bestimmt dann auf der Grundlage dieser Aufgaben den Grad der Granularität, der erforderlich ist, um seine Umgebung zu interpretieren und sich nur die relevanten Teile einer Szene zu „merken“.
In realen Experimenten, die von einer überfüllten Kabine bis zu einem fünfstöckigen Gebäude auf dem MIT-Campus reichten, nutzte das Workforce Clio, um eine Szene automatisch auf verschiedenen Granularitätsebenen zu segmentieren, basierend auf einer Reihe von Aufgaben, die in natürlichsprachlichen Eingabeaufforderungen wie „Regal bewegen“ festgelegt wurden von Zeitschriften“ und „Erste-Hilfe-Kasten besorgen“.
Das Workforce ließ Clio auch in Echtzeit auf einem vierbeinigen Roboter laufen. Als der Roboter ein Bürogebäude erkundete, identifizierte und kartierte Clio nur die Teile der Szene, die mit den Aufgaben des Roboters in Zusammenhang standen (z. B. das Apportieren eines Hundespielzeugs und gleichzeitiges Ignorieren von Stapeln von Büromaterialien), sodass der Roboter die Objekte von Interesse greifen konnte.
Clio ist nach der griechischen Muse der Geschichte benannt und zeichnet sich durch seine Fähigkeit aus, nur die Elemente zu identifizieren und sich daran zu erinnern, die für eine bestimmte Aufgabe wichtig sind. Die Forscher gehen davon aus, dass Clio in vielen Situationen und Umgebungen nützlich sein könnte, in denen ein Roboter seine Umgebung schnell überblicken und im Kontext seiner gegebenen Aufgabe verstehen müsste.
„Suchen und Retten ist die motivierende Anwendung für diese Arbeit, aber Clio kann auch Haushaltsroboter und Roboter antreiben, die neben Menschen in einer Fabrikhalle arbeiten“, sagt Luca Carlone, außerordentlicher Professor am Division of Aeronautics and Astronautics (AeroAstro) des MIT und leitender Forscher in das Laboratory for Data and Resolution Programs (LIDS) und Direktor des MIT SPARK Laboratory. „Es geht wirklich darum, dem Roboter zu helfen, die Umgebung zu verstehen und zu verstehen, woran er sich erinnern muss, um seine Mission auszuführen.“
Das Workforce beschreibt seine Ergebnisse in einem Studie erscheint heute im Tagebuch Robotik- und Automatisierungsbriefe. Zu Carlones Co-Autoren gehören Mitglieder des SPARK Lab: Dominic Maggio, Yun Chang, Nathan Hughes und Lukas Schmid; und Mitglieder des MIT Lincoln Laboratory: Matthew Trang, Dan Griffith, Carlyn Dougherty und Eric Cristofalo.
Offene Felder
Riesige Fortschritte in den Bereichen Pc Imaginative and prescient und Verarbeitung natürlicher Sprache haben es Robotern ermöglicht, Objekte in ihrer Umgebung zu identifizieren. Aber bis vor Kurzem waren Roboter dazu nur in „Closed-Set“-Szenarien in der Lage, in denen sie so programmiert sind, dass sie in einer sorgfältig kuratierten und kontrollierten Umgebung mit einer endlichen Anzahl von Objekten arbeiten, deren Erkennung der Roboter vorab trainiert wurde.
In den letzten Jahren haben Forscher einen „offeneren“ Ansatz gewählt, um Robotern die Erkennung von Objekten in realistischeren Umgebungen zu ermöglichen. Im Bereich der Open-Set-Erkennung haben Forscher Deep-Studying-Instruments genutzt, um neuronale Netze aufzubauen, die Milliarden von Bildern aus dem Web zusammen mit dem zu jedem Bild zugehörigen Textual content verarbeiten können (z. B. das Fb-Bild eines Freundes mit der Überschrift „Meet.“) mein neuer Welpe!“)
Ein neuronales Netzwerk lernt aus Millionen von Bild-Textual content-Paaren und identifiziert diese Segmente in einer Szene, die für bestimmte Begriffe charakteristisch sind, beispielsweise für einen Hund. Ein Roboter kann dieses neuronale Netzwerk dann nutzen, um einen Hund in einer völlig neuen Szene zu erkennen.
Es bleibt jedoch immer noch eine Herausforderung, wie eine Szene auf nützliche Weise analysiert werden kann, die für eine bestimmte Aufgabe related ist.
„Typische Methoden wählen eine beliebige, feste Granularitätsebene aus, um zu bestimmen, wie Segmente einer Szene zu etwas zusammengeführt werden, das man als ein ‚Objekt‘ betrachten kann“, sagt Maggio. „Die Granularität dessen, was man als ‚Objekt‘ bezeichnet, hängt jedoch tatsächlich davon ab, was der Roboter tun muss. Wenn diese Granularität festgelegt wird, ohne die Aufgaben zu berücksichtigen, erhält der Roboter möglicherweise eine Karte, die für seine Aufgaben nicht nützlich ist.“
Informationsengpass
Mit Clio wollte das MIT-Workforce Roboter in die Lage versetzen, ihre Umgebung mit einem Grad an Granularität zu interpretieren, der automatisch an die jeweiligen Aufgaben angepasst werden kann.
Wenn der Roboter beispielsweise die Aufgabe hat, einen Bücherstapel in ein Regal zu schieben, sollte er in der Lage sein, festzustellen, dass der gesamte Bücherstapel das für die Aufgabe relevante Objekt ist. Wenn die Aufgabe darin bestünde, nur das grüne Buch vom Relaxation des Stapels zu bewegen, sollte der Roboter das grüne Buch als einzelnes Zielobjekt erkennen und den Relaxation der Szene – einschließlich der anderen Bücher im Stapel – außer Acht lassen.
Der Ansatz des Groups kombiniert modernste Pc Imaginative and prescient und große Sprachmodelle, die neuronale Netze umfassen, die Verbindungen zwischen Millionen von Open-Supply-Bildern und semantischem Textual content herstellen. Sie enthalten auch Kartierungstools, die ein Bild automatisch in viele kleine Segmente aufteilen, die in das neuronale Netzwerk eingespeist werden können, um festzustellen, ob bestimmte Segmente semantisch ähnlich sind. Anschließend nutzen die Forscher eine Idee aus der klassischen Informationstheorie namens „Informationsengpass“, mit der sie eine Reihe von Bildsegmenten so komprimieren, dass Segmente ausgewählt und gespeichert werden, die für eine bestimmte Aufgabe semantisch am relevantesten sind.
„Angenommen, es gibt einen Stapel Bücher in der Szene und meine Aufgabe besteht nur darin, das grüne Buch zu besorgen. In diesem Fall schieben wir all diese Informationen über die Szene durch diesen Engpass und erhalten am Ende eine Ansammlung von Segmenten, die das Grünbuch darstellen“, erklärt Maggio. „Alle anderen Segmente, die nicht related sind, werden einfach in einem Cluster zusammengefasst, den wir einfach entfernen können. Und wir haben ein Objekt mit der richtigen Granularität, das wir zur Unterstützung meiner Aufgabe benötigen.“
Die Forscher demonstrierten Clio in verschiedenen realen Umgebungen.
„Wir dachten, es wäre ein wirklich sachliches Experiment, Clio in meiner Wohnung laufen zu lassen, wo ich vorher nicht geputzt habe“, sagt Maggio.
Das Workforce erstellte eine Liste mit Aufgaben in natürlicher Sprache, wie zum Beispiel „Kleiderhaufen verschieben“ und wandte Clio dann auf Bilder von Maggios überfüllter Wohnung an. In diesen Fällen warfare Clio in der Lage, Szenen der Wohnung schnell zu segmentieren und die Segmente dem Data Bottleneck-Algorithmus zuzuführen, um die Segmente zu identifizieren, aus denen der Kleiderstapel bestand.
Sie ließen Clio auch auf dem vierbeinigen Roboter Spot von Boston Dynamic laufen. Sie gaben dem Roboter eine Liste mit Aufgaben, die er erledigen musste, und während der Roboter das Innere eines Bürogebäudes erkundete und kartierte, lief Clio in Echtzeit auf einem an Spot montierten Bordcomputer, um Segmente in den kartierten Szenen auszuwählen sich visuell auf die gestellte Aufgabe beziehen. Die Methode generierte eine überlagernde Karte, die nur die Zielobjekte zeigte, die der Roboter dann nutzte, um sich den identifizierten Objekten zu nähern und die Aufgabe physisch abzuschließen.
„Clio in Echtzeit laufen zu lassen, warfare eine große Leistung für das Workforce“, sagt Maggio. „Viele Vorarbeiten können mehrere Stunden in Anspruch nehmen.“
Für die Zukunft plant das Workforce, Clio anzupassen, um anspruchsvollere Aufgaben bewältigen zu können und auf den jüngsten Fortschritten bei der fotorealistischen visuellen Szenendarstellung aufzubauen.
„Wir geben Clio immer noch Aufgaben, die etwas spezifischer sind, wie zum Beispiel ‚Kartenspiel finden‘“, sagt Maggio. „Für Such- und Rettungsaktionen müssen Sie ihm komplexere Aufgaben übertragen, etwa ‚Überlebende finden‘ oder ‚Strom wieder einschalten‘. Deshalb wollen wir zu einem menschlicheren Verständnis dafür gelangen, wie komplexere Aufgaben bewältigt werden können.“
Diese Forschung wurde teilweise von der US-amerikanischen Nationwide Science Basis, dem Schweizerischen Nationalfonds, dem MIT Lincoln Laboratory, dem US Workplace of Naval Analysis und der US Military Analysis Lab Distributed and Collaborative Clever Programs and Know-how Collaborative Analysis Alliance unterstützt.