MIT-Forscher haben mehr als ein Jahrzehnt damit verbracht, Techniken zu erforschen, die es Robotern ermöglichen, versteckte Objekte zu finden und zu manipulieren, indem sie durch Hindernisse „sehen“. Ihre Methoden nutzen oberflächendurchdringende Funksignale, die von verborgenen Gegenständen reflektiert werden.

Jetzt nutzen die Forscher generative Modelle der künstlichen Intelligenz, um einen seit langem bestehenden Engpass zu überwinden, der die Präzision früherer Ansätze einschränkte. Das Ergebnis ist eine neue Methode, die genauere Formrekonstruktionen erzeugt und die Fähigkeit eines Roboters verbessern könnte, Objekte, die nicht sichtbar sind, zuverlässig zu greifen und zu manipulieren.

Diese neue Technik erstellt eine teilweise Rekonstruktion eines versteckten Objekts aus reflektierten Funksignalen und füllt die fehlenden Teile seiner Type mithilfe eines speziell trainierten generativen KI-Modells auf.

Die Forscher stellten außerdem ein erweitertes System vor, das mithilfe generativer KI einen gesamten Raum einschließlich aller Möbel genau rekonstruieren kann. Das System nutzt drahtlose Signale, die von einem stationären Radar gesendet werden und von Menschen reflektiert werden, die sich im Raum bewegen.

Dadurch wird eine zentrale Herausforderung vieler bestehender Methoden überwunden, bei denen ein drahtloser Sensor an einem mobilen Roboter montiert werden muss, um die Umgebung zu scannen. Und im Gegensatz zu einigen gängigen kamerabasierten Techniken schützt ihre Methode die Privatsphäre der Menschen in der Umgebung.

Diese Innovationen könnten es Lagerrobotern ermöglichen, verpackte Artikel vor dem Versand zu überprüfen und so Verschwendung durch Produktrückgaben zu vermeiden. Sie könnten es Sensible-Dwelling-Robotern auch ermöglichen, den Standort einer Particular person in einem Raum zu erkennen und so die Sicherheit und Effizienz der Mensch-Roboter-Interaktion zu verbessern.

„Was wir jetzt gemacht haben, ist die Entwicklung generativer KI-Modelle, die uns helfen, drahtlose Reflexionen zu verstehen. Das eröffnet viele interessante neue Anwendungen, aber technisch gesehen ist es auch ein qualitativer Sprung in den Fähigkeiten, von der Möglichkeit, Lücken zu schließen, die wir vorher nicht sehen konnten, bis hin zur Fähigkeit, Reflexionen zu interpretieren und ganze Szenen zu rekonstruieren“, sagt Fadel Adib, außerordentlicher Professor am Fachbereich Elektrotechnik und Informatik, Direktor der Gruppe Signalkinetik im MIT Media Lab und leitender Autor von zwei Artikeln zu diesen Themen Techniken. „Wir nutzen KI, um endlich drahtloses Sehen zu ermöglichen.“

Adib ist dabei erstes Papier von der Hauptautorin und Forschungsassistentin Laura Dodds; sowie die wissenschaftlichen Mitarbeiter Maisy Lam, Waleed Akbar und Yibo Cheng; und auf der zweites Papier vom Hauptautor und ehemaligen Postdoc Kaichen Zhou; Dodds; und wissenschaftlicher Mitarbeiter Sayed Saad Afzal. Beide Beiträge werden auf der IEEE Convention on Pc Imaginative and prescient and Sample Recognition vorgestellt.

Überwindung der Spiegelung

Die Adib Group hat zuvor die Verwendung von Millimeterwellensignalen (mmWave) demonstriert Erstellen Sie genaue Rekonstruktionen von 3D-Objekten, die nicht sichtbar sind, wie eine verlorene Brieftasche, die unter einem Stapel vergraben ist.

Diese Wellen, bei denen es sich um dieselbe Artwork von Signalen handelt, die auch bei WLAN verwendet werden, können gängige Hindernisse wie Trockenbauwände, Plastik und Pappe durchdringen und von versteckten Objekten reflektiert werden.

Aber mmWellen reflektieren normalerweise spiegelnd, was bedeutet, dass eine Welle nach dem Auftreffen auf eine Oberfläche in eine einzige Richtung reflektiert wird. Daher werden große Teile der Oberfläche Signale vom mmWave-Sensor weg reflektieren, wodurch diese Bereiche praktisch unsichtbar werden.

„Wenn wir ein Objekt rekonstruieren wollen, können wir nur die Oberseite sehen und weder die Unterseite noch die Seiten“, erklärt Dodds.

Bisher verwendeten die Forscher Prinzipien aus der Physik, um reflektierte Signale zu interpretieren, was jedoch die Genauigkeit der rekonstruierten 3D-Type einschränkte.

In den neuen Arbeiten überwanden sie diese Einschränkung, indem sie ein generatives KI-Modell verwendeten, um Teile zu ergänzen, die in einer Teilrekonstruktion fehlen.

„Aber dann stellt sich die Herausforderung: Wie trainiert man diese Modelle, um diese Lücken zu schließen?“ Sagt Adib.

Normalerweise verwenden Forscher extrem große Datensätze, um ein generatives KI-Modell zu trainieren, was einer der Gründe dafür ist, dass Modelle wie Claude und Llama eine so beeindruckende Leistung aufweisen. Allerdings sind keine mmWave-Datensätze groß genug für das Coaching.

Stattdessen passten die Forscher die Bilder in großen Pc-Imaginative and prescient-Datensätzen an, um die Eigenschaften von mmWave-Reflexionen nachzuahmen.

„Wir haben die Eigenschaft der Spiegelung und das Rauschen, das wir durch diese Reflexionen erhalten, simuliert, damit wir vorhandene Datensätze auf unseren Bereich anwenden können. Es hätte Jahre gedauert, bis wir dafür genügend neue Daten gesammelt hätten“, sagt Lam.

Die Forscher betten die Physik von mmWave-Reflexionen direkt in diese angepassten Daten ein und erstellen so einen synthetischen Datensatz, mit dem sie einem generativen KI-Modell beibringen, believable Formrekonstruktionen durchzuführen.

Das komplette System namens Wave-Former schlägt auf der Grundlage von mmWave-Reflexionen eine Reihe potenzieller Objektoberflächen vor, leitet sie an das generative KI-Modell weiter, um die Type zu vervollständigen, und verfeinert dann die Oberflächen, bis eine vollständige Rekonstruktion erreicht ist.

Wave-Former conflict in der Lage, originalgetreue Rekonstruktionen von etwa 70 Alltagsgegenständen wie Dosen, Kisten, Utensilien und Obst zu erstellen und die Genauigkeit im Vergleich zu hochmodernen Basislinien um quick 20 Prozent zu steigern. Die Objekte waren hinter oder unter Pappe, Holz, Trockenbau, Kunststoff und Stoff versteckt.

„Geister“ sehen

Das Crew nutzte denselben Ansatz, um ein erweitertes System zu entwickeln, das ganze Innenszenen vollständig rekonstruiert, indem es mmWave-Reflexionen von Menschen nutzt, die sich in einem Raum bewegen.

Menschliche Bewegung erzeugt Mehrwegereflexionen. Einige mmWellen werden vom Menschen reflektiert, dann erneut von einer Wand oder einem Objekt und kommen dann wieder beim Sensor an, erklärt Dodds.

Diese sekundären Reflexionen erzeugen sogenannte „Geistersignale“, bei denen es sich um reflektierte Kopien des ursprünglichen Indicators handelt, die ihren Standort ändern, wenn sich ein Mensch bewegt. Diese Geistersignale werden normalerweise als Rauschen verworfen, enthalten aber auch Informationen über die Raumaufteilung.

„Indem wir analysieren, wie sich diese Reflexionen im Laufe der Zeit verändern, können wir beginnen, ein grobes Verständnis der Umgebung um uns herum zu erlangen. Aber der Versuch, diese Signale direkt zu interpretieren, wird in Bezug auf Genauigkeit und Auflösung begrenzt sein.“ Dodds sagt.

Sie verwendeten eine ähnliche Trainingsmethode, um einem generativen KI-Modell beizubringen, diese groben Szenenrekonstruktionen zu interpretieren und das Verhalten von Mehrwege-mmWave-Reflexionen zu verstehen. Dieses Modell füllt die Lücken und verfeinert die anfängliche Rekonstruktion, bis die Szene fertig ist.

Sie testeten ihr Szenenrekonstruktionssystem namens RISE anhand von mehr als 100 menschlichen Flugbahnen, die von einem einzelnen mmWave-Radar erfasst wurden. Im Durchschnitt generierte RISE Rekonstruktionen, die etwa doppelt so präzise waren wie bestehende Techniken.

Zukünftig wollen die Forscher die Granularität und Detailgenauigkeit ihrer Rekonstruktionen verbessern. Sie wollen auch große Basismodelle für drahtlose Signale bauen, wie die Basismodelle GPT, Claude und Gemini für Sprache und Imaginative and prescient, die neue Anwendungen eröffnen könnten.

Diese Arbeit wird teilweise von der Nationwide Science Basis (NSF), dem MIT Media Lab und Amazon unterstützt.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert