haben wir AlpamayoR1 (AR1) besprochen, ein autonomes Fahrmodell, das einen VLM als logisches Rückgrat integriert. Es basiert auf einem sorgfältig gesammelten Datensatz zur Kausalkette. Das Coaching anhand dieses Datensatzes ermöglicht es AR1, in natürlicher Sprache zu „argumentieren“, um herausfordernde Fahrsituationen zu lösen.

Was aber, wenn natürliche Sprache nicht die beste Unterstützung für das Denken in Fahrszenarien ist? Denn wenn es um eine Fahrsituation geht, die eine sofortige Reaktion erfordert, handeln menschliche Fahrer in der Regel reflexartig und nicht „Schritt für Schritt in der Sprache argumentieren“. Was ist die Different für Fahrmodelle?

In diesem Artikel erläutern wir die LatentVLA-Architektur, eine überzeugende Sicht auf sprachbasierte Ansätze, die erforderlich sind kein Datensatz in natürlicher Sprache, führt Überlegungen im latenten Raum durch und Verwendungen Wissensdestillation um Echtzeitbeschränkungen zu erfüllen.

Latentes Aktionslernen

Ein großer Teil des Erfolgs von AR1 beruht auf dem Datensatz zur Kausalkette, dessen Erfassung einen industriellen Aufwand, eine sorgfältig ausgearbeitete Kennzeichnungspipeline und eine umfassende Validierung erforderte.

Im Gegensatz dazu schlägt LatentVLA eine völlig entgegengesetzte Richtung ein: Die Autoren argumentieren, dass rohe Fahrdaten bereits die Struktur enthalten, die zum Trainieren eines großen Modells erforderlich ist, und dass natürliche Sprache von Natur aus voreingenommen und schwer mit Aktionen abzugleichen ist. Darüber hinaus ist die Generierung von Argumentationsketten in natürlicher Sprache ineffizient, da einige Token keinen sinnvollen Beitrag zum Argumentationsprozess leisten (z. B. Stoppwörter).

Daher führen sie einen selbstüberwachten Rahmen ein, der zur Vorhersage eingesetzt wird egozentrische latente Handlungen in einem kleinen latenten Raum. Mit anderen Worten: Das Modell verwendet unbeschriftete Fahrdaten zur Vorhersage welche Maßnahmen der Fahrer ergriffen haben muss um diese Daten zu generieren. Diese latenten Handlungen werden als Bausteine ​​für das Denken im latenten Raum dienen.

Repräsentationslernen

Um latente Handlungen aus unbeschrifteten Daten vorherzusagen, verwenden die Autoren eine Methode, die an LAPO (Lernen, ohne Handlungen zu handeln) erinnert (2). Dieser Ansatz basiert auf einem Encoder-Decoder-Setup, bei dem der Encoder (auch als „Inverse-Dynamics-Modell“ (IDM) bezeichnet) zwei aufeinanderfolgende Frames verwendet, um einen kontinuierlichen Aktionsvektor vorherzusagen, und der Decoder (als „Ahead-Dynamics-Modell“ (FDM) bezeichnet) den aktuellen Body und den vorhergesagten Aktionsvektor verwendet, um den nächsten Body zu rekonstruieren.

Dieser clevere Aufbau zwingt die erlernte Aktionsdarstellung dazu, zu beschreiben, was Es müssen Maßnahmen ergriffen worden sein um die Zustandsübergänge in unserem Datensatz zu beobachten. Diese kontinuierliche Aktionsdarstellung ist jedoch immer noch nicht mit den VLMs kompatibel, die wir verwenden möchten. Um es zu diskretisieren, verwenden die Autoren einen VQ-VAE (Vector-Quantised Variational Auto-Encoder), der kontinuierliche Vektoren auf die nächstgelegenen diskreten Vektoren in einem erlernten System abbildet Codebuch (dh ein Wörterbuch diskreter Aktionen) auf differenzierbare Weise. Dies ist die Aktion, die vom FDM verwendet wird, um den nächsten Body zu dekodieren.

Durch die Optimierung des Rekonstruktionsfehlers des nächsten Frames haben wir IDM und FDM gemeinsam trainiert, um eine prädiktive Darstellung diskreter Aktionen zu codieren.

Kontinuierliche Motion-Darstellungen, die LAPO aus unbeschrifteten Gameplay-Movies zu beliebten Arcade-Spielen gelernt hat. Quelle: (2)

Unterscheidung von Ego-Aktionen und Umgebungslärm

Jetzt denken Sie vielleicht: „Die Aktionen des Fahrers sind nicht der einzige Faktor, der das nächste Bild während der Fahrt beeinflusst. Was wäre, wenn ein Vogel vor der Kamera fliegt? Verunreinigt das die Aktionsdarstellung?“ Darauf antworten die Autoren mit Ja Und Nein, es muss einen Mechanismus geben, der die Auswirkungen der Handlungen des Fahrers auf die Zukunft entwirrt Umweltdynamik.

Die elegante Lösung dieses Issues besteht in der Verwendung eines zweistufigen Encoder-Decoder-Aufbaus:

  1. Abhängig von der Flugbahn der Grundwahrheit, dem Ego-Zustand und dem vorherigen Body sagt der Encoder eine latente Aktion voraus. Da diese Aktion durch die Flugbahn und den Ego-Zustand von der Fahrzeugdynamik abhängig ist, muss sie nur modelliert werden Umweltdynamik um dem Decoder die Rekonstruktion des nächsten Frames zu ermöglichen. Das „Umweltschutzmaßnahmen“ wird dann quantisiert und das hierfür verwendete Codebuch für die nächste Stufe eingefroren.
  2. Bedingt durch den vorherigen Body und die Umweltmaßnahmenkodiert der Encoder eine weitere latente Aktion. Da die Umweltdynamik bekannt und Teil der Konditionierung ist, muss diese zweite latente Aktion ebenfalls kodiert werden egozentrische Dynamik. Mithilfe eines neuen Codebuchs wird diese Aktion in eine diskrete Quantisierung umgewandelt Ego-Aktion.

Schließlich geben wir beide Aktionen an den Decoder weiter, um den nächsten Body zu rekonstruieren. Dieser Aufbau gewährleistet eine klare Trennung von Ego-Aktionen und Umweltdynamik.

VLM-Schulung

Aufbauend auf der erlernten Aktionsdarstellung trainieren die Autoren ein Qwen2.5-VL-Modell, um dieselben latenten Aktionen wie das Encoder-Decoder-Modell vorherzusagen. Dies wird erreicht, indem der Encoder eine Trajektorie von 12 latenten Aktionen für einen bestimmten Eingaberahmen vorhersagt und der VLM seine unfavourable Log-Probability optimiert:

Ein auffälliger Unterschied zu anderen Ansätzen, die Aktionscodebücher verwenden, ist die Anzahl der von LatentVLA verwendeten Aktions-Tokens. Während andere Modelle wie AutoVLA ein Aktionscodebuch mit 2048 Spezialtoken verwenden, LatentVLA verwendet nur 16.

Daraus ergibt sich:

  1. Eine einfachere Lernaufgabe: In einem 2048-dimensionalen Codebuch repräsentieren Aktionen wahrscheinlich sehr präzise Fahrentscheidungen wie „im 16-Grad-Winkel nach hyperlinks lenken“. Mit nur 16 Token übernimmt das Modell wahrscheinlich übergeordnete Anweisungen wie „leicht beschleunigen“ oder „eine schmale Rechtskurve nehmen“, deren Erlernen weniger Demonstrationen erfordert.
  2. Bewahrung des VLM-Vorwissens vor dem Coaching: Es müssen nicht über 2000 „neue Wörter“ gelernt werden.

Wissensdestillation

Während AlpamayoR1 auf effiziente Tokenisierung und Circulate-Matching-Diffusion setzte, um die Echtzeitleistung aufrechtzuerhalten, verfolgt LatentVLA einen völlig anderen Ansatz: Wissensdestillation. Zu diesem Zweck führen die Autoren a Fusionsmodul innerhalb bestehender E2E-Architekturen (iPad (4) und Transfuser (5)). Dieses Fusionsmodul wird vom VLM mit visuellen und aktionsbezogenen Einbettungen versorgt und gibt Options im BEV-Raum (Chook’s-Eye-View) aus. Diese Einbettungen dienen als Schlüssel und Werte im Zusammenhang mit BEV-Abfragen, die vom E2E-Modell erzeugt werden. Dadurch kann das E2E-Modell Erkenntnisse aus dem VLM integrieren.

LatentVLA lässt sich in mehrere E2E-Architekturen integrieren. Der Einfachheit halber betrachten wir nur die Transfuser-Integration. Quelle: (1)

Allerdings bleibt der VLM zu groß, um zum Testzeitpunkt effizient genutzt zu werden. Daher ein kleines 50M-Parameter Entscheidungstransformator ist darauf trainiert, die Großen nachzuahmen 3.8B Qwen2.5-VL VLM. Dies wird durch die Minimierung der KL-Divergenz zwischen der Lehrer- und Schülerverteilung erreicht:

Dieses Framework ermöglicht LatentVLA den Betrieb mit einem sehr kompakten Argumentations-Spine und bietet einen allgemeinen Ansatz zur Integration von VLM-Wissen in traditionelle E2E-Architekturen zu geringeren Kosten.

Visuelle Darstellung der LatentVLA-Architektur mit Wissensdestillation. Quelle: (1)

Auswertung

LatentVLA wird auf NavSim (6) trainiert und ausgewertet, einem Datensatz, der aus über 100.000 Frames besteht, die in realen Fahrsimulationen gesammelt wurden. NavSim enthält außerdem a nicht reaktiv Simulator zur Bewertung der Open-Loop-Planung.

Mit anderen Worten: Die Modelle sagen anhand der Eingabebilder eine Flugbahn für die nächsten Sekunden voraus. Anschließend wird diese Trajektorie in einer BEV-Simulation ausgeführt, die unter der Annahme erfolgt, dass Aktionen des Ego-Fahrzeugs erfolgen keinen Einfluss haben die Aktionen anderer Agenten (additionally „nicht reaktiv“). Dies ermöglicht die einfache Messung planungsbezogener Metriken wie des Predictive Driver Mannequin Rating (PDMS): eine zusammengesetzte Metrik, die Fahrsicherheit, Leistung und Risiko durch Integration von Simulationsergebnissen quantifiziert.

Diese Artwork der Bewertung weist jedoch einige wichtige Mängel auf, auf die wir später noch eingehen werden.

Darstellung einer NavSim-Szene (hyperlinks) zusammen mit einem Simulations-Rollout (rechts). Quelle: (1)

Bei diesem Benchmark erzielt LatentVLA Ergebnisse auf dem neuesten Stand der Technik und übertrifft Commonplace-E2E- und LLM-basierte Architekturen. Allerdings scheint die Leistungssteigerung durch die Integration von VLM-Wissen in iPad und Transfuser begrenzt zu sein. Wenn wir uns auf das PDMS konzentrieren, stellen wir fest, dass die iPad-Basislinie einen Wert von 91,7 % erreicht. Die destillierte LatentVLA-Different erhöht den Wert auf 92,1 (+0,4 %) und die nicht destillierte Model erreicht 92,4 (weitere +0,3 %).

Diese kleine Verbesserung wirft die Frage auf, ob ein höheres Denkvermögen und Weltwissen wirklich für das Autofahren unerlässlich sind.

Meiner Meinung nach haben sie das Potenzial, ein neues Niveau an Fahrleistungen zu erschließen, aber dies wird von nicht interaktiven Planungssimulatoren nur unzureichend gemessen.

Die Grenzen der Open-Supply-Planung

In den letzten Jahren hat sich weitgehend die Einsicht durchgesetzt, dass nur die Bewertung von Fahrmodellen im Rahmen der Open-Loop-Planung ein unvollständiges Bild ihrer tatsächlichen Fahrfähigkeiten liefert. Tatsächlich unterscheidet sich die Planung im offenen Regelkreis grundlegend vom Autofahren und ist wohl einfacher. Der Hauptgrund dafür ist, dass die Open-Loop-Planung keine Interaktionen mit der Umgebung beinhaltet (bestenfalls der Simulator). nicht reaktiv) und reduziert sich auf die Nachahmung der Flugbahn eines Experten. Dies führt in realen Szenarien zu mehreren Problemen:

  1. Kleine Abweichungen von den gelernten Trajektorien führen zu kaskadierenden Fehlern: Ohne dynamische Interaktionen mit der Umgebung und anderen Agenten haben Open-Loop-Modelle Schwierigkeiten, Flugbahnen zu korrigieren, die leicht von den gelernten abweichen.
  2. Flugbahnen sind von Natur aus multimodal: Für jede Fahrsituation gibt es mehrere Trajektorien und Beschleunigungsmuster, die zu sicheren Fahrergebnissen führen. Durch Nachahmungslernen auf einer einzelnen Expertentrajektorie wird diese Multimodalität jedoch zerstört, wodurch die Generalisierungsfähigkeiten des Modells eingeschränkt werden.

Aus diesen Gründen ist es wichtig, Fahrmodelle in geschlossenen (d. h. reaktiven) Simulatoren gründlich zu evaluieren und rechtfertigt die Verwendung von RL-Put up-Coaching-Methoden, wie im AR1-Artikel beschrieben.

Ich wette, dass die Diskrepanz zwischen LatentVLA und seinen Nicht-VLM-Basislinien in diesen Szenarien größer ist, da Argumente dazu beitragen könnten, die Einschränkungen des Open-Loop-Trainings zu mildern.

Abschluss

In diesem Artikel haben wir LatentVLA besprochen, einen Ansatz, der darauf abzielt, VLM-Wissen in Commonplace-E2E-Modelle zu integrieren, ohne auf natürliche Sprache angewiesen zu sein. Dieser Ansatz ist insofern innovativ, als er das Erlernen nützlicher Darstellungen aus unbeschrifteten Daten ermöglicht, während konkurrierende Arbeiten wie AR1 auf sorgfältig annotierten umfangreichen Datensätzen basieren, um die Mehrdeutigkeit natürlicher Sprache zu umgehen.

LatentVLA würde jedoch von einer gründlicheren Evaluierung profitieren, insbesondere in geschlossenen Regelkreisen.

Vielen Dank, dass Sie bis hierher gelesen haben!

Wenn Sie diesen Artikel nützlich fanden, denken Sie bitte darüber nach es teilen; Es trägt wirklich dazu bei, den Zeit- und Arbeitsaufwand zu decken, der in die Erstellung dieser Arbeit investiert wird. Wie immer, zögern Sie nicht Kontaktieren Sie mich wenn Sie Fragen, Gedanken oder Ideen für Folgemaßnahmen haben. Wenn Sie meine unabhängige Forschung und mein Schreiben unterstützen möchten, können Sie dies gerne tun kauf mir einen Kaffee 😉

Bis zum nächsten Mal! 👋

Referenzen

  1. LatentVLA
  2. LAPO
  3. VQ-VAE
  4. iPad
  5. Transfuser

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert