MIT-Forscher haben einen auf generativer künstlicher Intelligenz basierenden Ansatz zur Planung langfristiger visueller Aufgaben wie der Roboternavigation entwickelt, der etwa doppelt so effektiv ist wie einige bestehende Techniken.

Ihre Methode nutzt ein spezielles Imaginative and prescient-Sprach-Modell, um das Szenario in einem Bild wahrzunehmen und die zum Erreichen eines Ziels erforderlichen Aktionen zu simulieren. Anschließend übersetzt ein zweites Modell diese Simulationen in eine Standardprogrammiersprache für Planungsprobleme und verfeinert die Lösung.

Am Ende generiert das System automatisch eine Reihe von Dateien, die in klassische Planungssoftware eingespeist werden können, die einen Plan zur Zielerreichung berechnet. Dieses zweistufige System generierte Pläne mit einer durchschnittlichen Erfolgsquote von etwa 70 Prozent und übertraf damit die besten Basismethoden, die nur etwa 30 Prozent erreichen konnten.

Wichtig ist, dass das System neue Probleme lösen kann, auf die es bisher noch nicht gestoßen ist, wodurch es sich intestine für reale Umgebungen eignet, in denen sich die Bedingungen jederzeit ändern können.

„Unser Framework kombiniert die Vorteile von Imaginative and prescient-Language-Modellen, wie ihre Fähigkeit, Bilder zu verstehen, mit den starken Planungsfähigkeiten eines formalen Lösers“, sagt Yilun Hao, ein Doktorand der Luft- und Raumfahrttechnik (AeroAstro) am MIT und Hauptautor einer Open-Entry-Artikel zu dieser Technik. „Es kann ein einzelnes Bild aufnehmen und es durch Simulation weiterleiten und dann zu einem zuverlässigen, langfristigen Plan führen, der in vielen realen Anwendungen nützlich sein könnte.“

Sie wird bei dem Artikel von Yongchao Chen unterstützt, einem Doktoranden am MIT Laboratory for Info and Determination Methods (LIDS); Chuchu Fan, außerordentlicher Professor bei AeroAstro und leitender Forscher bei LIDS; und Yang Zhang, Forschungswissenschaftler am MIT-IBM Watson AI Lab. Das Papier wird auf der Worldwide Convention on Studying Representations vorgestellt.

Visuelle Aufgaben bewältigen

In den letzten Jahren haben Fan und ihre Kollegen den Einsatz generativer KI-Modelle zur Durchführung komplexer Überlegungen und Planungen untersucht und dabei häufig große Sprachmodelle (LLMs) zur Verarbeitung von Texteingaben eingesetzt.

Viele reale Planungsprobleme, wie die Robotermontage und das autonome Fahren, erfordern visuelle Eingaben, die ein LLM allein nicht intestine bewältigen kann. Die Forscher versuchten, in den visuellen Bereich vorzudringen, indem sie Imaginative and prescient-Language-Modelle (VLMs) nutzten, leistungsstarke KI-Systeme, die Bilder und Textual content verarbeiten können.

VLMs haben jedoch Schwierigkeiten, die räumlichen Beziehungen zwischen Objekten in einer Szene zu verstehen, und können bei vielen Schritten oft nicht richtig argumentieren. Dies erschwert den Einsatz von VLMs für eine langfristige Planung.

Andererseits haben Wissenschaftler robuste, formale Planer entwickelt, die effektive Langzeitpläne für komplexe Situationen erstellen können. Allerdings können diese Softwaresysteme keine visuellen Eingaben verarbeiten und erfordern Expertenwissen, um ein Drawback in eine Sprache zu kodieren, die der Löser verstehen kann.

Fan und ihr Staff haben ein automatisches Planungssystem entwickelt, das das Beste aus beiden Methoden vereint. Das als VLM-geführte formale Planung (VLMFP) bezeichnete System nutzt zwei spezialisierte VLMs, die zusammenarbeiten, um visuelle Planungsprobleme in gebrauchsfertige Dateien für formale Planungssoftware umzuwandeln.

Die Forscher trainierten zunächst sorgfältig ein kleines Modell, das sie SimVLM nennen, um sich darauf zu spezialisieren, das Szenario in einem Bild mithilfe natürlicher Sprache zu beschreiben und eine Abfolge von Aktionen in diesem Szenario zu simulieren. Dann verwendet ein viel größeres Modell, das sie GenVLM nennen, die Beschreibung von SimVLM, um einen Satz anfänglicher Dateien in einer formalen Planungssprache zu generieren, die als Planning Area Definition Language (PDDL) bekannt ist.

Die Dateien können nun in einen klassischen PDDL-Löser eingespeist werden, der einen Schritt-für-Schritt-Plan zur Lösung der Aufgabe berechnet. GenVLM vergleicht die Ergebnisse des Solvers mit denen des Simulators und verfeinert die PDDL-Dateien iterativ.

„Der Generator und der Simulator arbeiten zusammen, um genau das gleiche Ergebnis zu erzielen, nämlich eine Aktionssimulation, die das Ziel erreicht“, sagt Hao.

Da GenVLM ein großes generatives KI-Modell ist, hat es während des Trainings viele Beispiele von PDDL gesehen und gelernt, wie diese formale Sprache eine Vielzahl von Problemen lösen kann. Dieses vorhandene Wissen ermöglicht es dem Modell, genaue PDDL-Dateien zu generieren.

Ein flexibler Ansatz

VLMFP generiert zwei separate PDDL-Dateien. Die erste ist eine Domänendatei, die die Umgebung, gültige Aktionen und Domänenregeln definiert. Außerdem wird eine Problemdatei erstellt, die den Ausgangszustand und das Ziel eines bestimmten Issues definiert.

„Ein Vorteil von PDDL besteht darin, dass die Domänendatei für alle Instanzen in dieser Umgebung gleich ist. Dadurch ist unser Framework intestine in der Lage, auf unsichtbare Instanzen unter derselben Domäne zu verallgemeinern“, erklärt Hao.

Um eine effektive Verallgemeinerung des Methods zu ermöglichen, mussten die Forscher sorgfältig gerade genug Trainingsdaten für SimVLM entwerfen, damit das Modell lernte, das Drawback und das Ziel zu verstehen, ohne sich Muster im Szenario zu merken. Beim Testen beschrieb SimVLM erfolgreich das Szenario, simulierte Aktionen und erkannte in etwa 85 Prozent der Experimente, ob das Ziel erreicht wurde.

Insgesamt erreichte das VLMFP-Framework eine Erfolgsquote von etwa 60 Prozent bei sechs 2D-Planungsaufgaben und mehr als 80 Prozent bei zwei 3D-Aufgaben, einschließlich Multiroboter-Kollaboration und Robotermontage. Es generierte außerdem gültige Pläne für mehr als 50 Prozent der Szenarien, die es zuvor noch nicht gesehen hatte, und übertraf damit die Basismethoden bei weitem.

„Unser Framework kann verallgemeinern, wenn sich die Regeln in verschiedenen Situationen ändern. Dies gibt unserem System die Flexibilität, viele Arten visueller Planungsprobleme zu lösen“, fügt Fan hinzu.

Zukünftig möchten die Forscher VLMFP in die Lage versetzen, komplexere Szenarien zu bewältigen und Methoden zur Identifizierung und Linderung von Halluzinationen durch die VLMs zu erforschen.

„Langfristig könnten generative KI-Modelle als Agenten fungieren und die richtigen Werkzeuge nutzen, um viel kompliziertere Probleme zu lösen. Aber was bedeutet es, über die richtigen Werkzeuge zu verfügen, und wie integrieren wir diese Werkzeuge? Es liegt noch ein weiter Weg vor uns, aber indem wir die visuelle Planung ins Spiel bringen, ist diese Arbeit ein wichtiger Teil des Puzzles“, sagt Fan.

Diese Arbeit wurde teilweise vom MIT-IBM Watson AI Lab finanziert.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert