eroberten die Welt des autonomen Fahrens im Sturm mit ihrer neuen AlpamayoR1-Architektur, die ein großes Imaginative and prescient-Language-Modell als kausal fundiertes Rückgrat integriert. Diese Veröffentlichung, begleitet von einem neuen großen Datensatz und einem fotorealistischen Fahrsimulator, positioniert das Unternehmen bereits im Jahr 2026 als einen der Hauptakteure auf diesem Gebiet.
In diesem Artikel werden wir die AlpamayoR1-Architektur, die Argumentation der Kausalkette sowie das aufwändige Trainingsverfahren, das zum Trainieren des Modells verwendet wird, aufschlüsseln.
Der aktuelle Stand des autonomen Fahrens
Die Veröffentlichung von AlpamayoR1 (AR1) findet Kontext im aktuellen Paradigma der Finish-to-Finish (E2E)-Architekturen. E2E-Modelle zielen darauf ab, rohe sensorische Eingaben (Kameras, LiDAR, Radar usw.) auf Trajektorien in einer vollständig differenzierbaren Architektur abzubilden und so ein einheitliches Ziel zu optimieren.
Ein aufkommender E2E-Pattern besteht darin, das umfangreiche Weltwissen großer Imaginative and prescient-Language-Modelle (VLMs) zu nutzen, um komplexe Fahrsituationen zu bewältigen. Dabei handelt es sich im Allgemeinen um die Verwendung von VLMs als Schlussfolgerungsbasis zur Info über zukünftige Entwicklungen oder als Expertenlehrer, um kleineren Schülermodellen Aufsichtssignale zu geben.
Die AR1-Architektur
AR1 ist ein Paradebeispiel für den Reasoning-VLM-as-a-Spine-Ansatz. Trotz ihrer enormen Größe ist die Architektur für den realen Einsatz optimiert und weist eine Latenz von auf 99ms oder 10Hz auf einer einzelnen BlackWell-GPU, die aus Sicherheitsgründen als allgemeines Ziel gilt. In diesem Abschnitt werden wir die Architektur und ihre zahlreichen Innovationen aufschlüsseln.

Imaginative and prescient-Encoder
AR1 verwendet sowohl visuelle als auch textuelle Eingaben in Type von tokenisierten Kamera-Feeds und Anweisungen in natürlicher Sprache. Für die Leistung ist es entscheidend, dass der Imaginative and prescient-Encoder möglichst wenige Token produziert.
Zu diesem Zweck verwendeten die Autoren einen Imaginative and prescient Transformer (ViT)(2) zur Einzelbild-Tokenisierung. ViTs partitionieren Bilder in einer Folge von Token, die von einem regulären Transformator codiert werden. Beachten Sie, dass die Integration effizienterer Algorithmen wie Flex (3) für die Multi-Video-Tokenisierung zukünftiger Arbeit vorbehalten bleibt.

Argumentationsrückgrat
Die AR1-Architektur basiert auf Cosmos-Motive, einem der VLMs von Nvidia, der speziell für verkörpertes Denken in Anwendungsfällen der physischen KI trainiert wurde. Der übliche Trainingssatz umfasst 3,7 Millionen allgemeine visuelle Frage-Antwort-Beispiele (VQA), um auch den physikalischen allgemeinen Satz des Modells zu verbessern, ergänzt durch 24,7.000 Fahrbeispiele. Dazu gehören Video-VQA, die mit DeepSeek-R1-Argumentationsspuren kommentiert sind, um die nächste Aktion vorherzusagen.
Cosmos-Motive verarbeitet visuelle und Textual content-Tokens zusammen mit der aktuellen Ego-Geschichte (vergangene xy-Positionen und Winkel des Ego-Fahrzeugs) zur Ausgabe Kausalkette Argumentationsspuren, um zukünftige Flugbahnen zu informieren.
Kausalkette
Eine entscheidende Einschränkung von Sprachmodellen liegt in der inhärenten Mehrdeutigkeit von Textbezeichnungen in visuellen Datensätzen. Dazu gehören vage Beschreibungen ohne kausale Struktur. Auf solchen Daten trainierte Modelle weisen eine geringe Korrelation zwischen ihren Argumentationsspuren und vorhergesagten Aktionen sowie kausale Verwirrung auf.

Für einen verkörperten Agenten wie ein autonomes Auto sind ausgeprägte Fähigkeiten zum Kausaldenken unerlässlich. Um diese Probleme zu umgehen, hat das Nvidia-Staff erhebliche Anstrengungen unternommen, um einen Fahrdatensatz mit kausal konsistenten Anmerkungen zu erstellen.
Konkret enthält der Datensatz 20-Sekunden-Clips, die aus realen Fahraufzeichnungen in verschiedenen Umgebungen und Ländern extrahiert wurden. Jeder Clip enthält 2 Sekunden Kontext, der zu einer Fahrentscheidung (z. B. Überholen, Nachgeben, Überfahren einer Kreuzung usw.) und deren Konsequenzen führt. Die kausale Struktur dieser Szenarien wird durch konsistente Textanmerkungen nach einer strengen Vorlage offengelegt.

Die ersten 10 % des Datensatzes werden von Menschen annotiert, während der Relaxation von hochmodernen VLMs wie GPT5 annotiert wird, um den Kennzeichnungsprozess zu skalieren. Auch hier werden erhebliche Anstrengungen unternommen, um die Konsistenz, Qualität und Korrektheit dieser menschlichen und KI-Anmerkungen sicherzustellen.

Flugbahndecoder
Der letzte Schritt des Vorwärtsdurchlaufs besteht darin, die Argumentationsspuren in eine 64-Punkte-Trajektorie zu dekodieren. Während Trajektorien normalerweise als Folge von Wegpunkten (xy-Koordinaten) dekodiert werden, stellte das Nvidia-Staff fest, dass die Verwendung der Einraddynamik (d. h. das Erzeugen einer Folge von Beschleunigungswerten und Lenkwinkeln) konsistentere Ergebnisse lieferte. Insbesondere erleichtert es die Lernaufgabe, indem es verhindert, dass das Modell physikalisch unmögliche Trajektorien vorhersagt (z. B. wenn Punkt t zu weit von Punkt t+1 entfernt ist).
Interessanterweise verwenden die Autoren eine duale Darstellung der Trajektorie, bei der das Modell während des Trainings autoregressiv diskrete Token generiert und Move-Matching verwendet, um zur Inferenzzeit eine kontinuierliche Trajektorie zu generieren. Die Hauptgründe für dieses Design sind folgende:
- Gemeinsamer Aktionsbegründungs-Token-Raum: Die Verwendung diskreter Aktionstoken ermöglicht eine engere Kopplung zwischen Argumentationsspuren und Aktionen. Wenn das Modell eine Argumentationsspur generiert, werden die nächsten Token in der Sequenz (Beschleunigung und Krümmungen) mathematisch mit dieser Erklärung verknüpft, wodurch Halluzinationen verhindert werden.
- Erleichterung der RL-Optimierung: Die Beschränkung der Menge möglicher Aktionstoken auf eine diskrete Menge erleichtert die RL-Optimierung erheblich. Tatsächlich wird durch die Auswahl des richtigen Tokens aus einem diskreten Vokabular (z
ACCEL_NEG_2) ist wesentlich einfacher als die Bereitstellung eines Gradienten für einen kontinuierlichen Wert wie-2.145 m/s^2. Wie wir im nächsten Abschnitt sehen werden, ermöglicht dies ein RL-Submit-Coaching, was für die Verbesserung der Sicherheit und Konsistenz des Modells von entscheidender Bedeutung ist. - Stärkeres Aufsichtssignal: Die Verwendung eines Kreuzentropieverlusts für diskrete Token wirkt wie eine Klassifizierungsaufgabe und erfasst die Multimodalität (z. B. die eindeutige Wahrscheinlichkeit, nach hyperlinks oder rechts abzubiegen) als ein MSE-Verlust an Koordinaten.
- Flussanpassung für Inferenz: Während sich diskrete Token hervorragend zum Lernen eignen, führen sie typischerweise zu ruckartigen Flugbahnen. Darüber hinaus ist die automatische regressive Generierung einer Sequenz von 128 Token für eine Echtzeitinferenz zu langsam. Um diese Einschränkungen zu beseitigen, stellen die Autoren einen Aktionsexperten vor: eine kleinere Variante der Hauptarchitektur, die den KV-Cache (der visuelle Token, historische Bewegungen und Argumentationsspuren enthält) verwendet, um eine kontinuierliche Flugbahn in einem Durchgang mithilfe von Move-Matching-Diffusion zu dekodieren. Dies ist einer der Hauptgründe, warum AR1 mit einer so geringen Latenz ausgeführt werden kann.

Überwachte Feinabstimmung und RL-Nachschulung

Um das VLM-Spine in eine leistungsstarke Fahrrichtlinie umzuwandeln, wird es einer überwachten Feinabstimmung (SFT) am Datensatz der Kausalkette unterzogen. Insbesondere lernt es, die Argumentationsspuren und die damit verbundenen Grundwahrheitsaktionen zu reproduzieren, indem die Log-Wahrscheinlichkeit der Aktions-Argumentationssequenz maximiert wird:
SFT allein reicht jedoch nicht aus. VLMs leiden bekanntermaßen unter Diskrepanzen zwischen ihren Überlegungen und den vorhergesagten Aktionen. Die statische Natur von Open-Loop-Datensätzen ermöglicht es dem Modell, Argumentationsspuren nachzuahmen, aber das Fehlen von Umweltrückmeldungen hindert sie daran, kausale Reaktionen wirklich zu verinnerlichen.
Glücklicherweise trägt das RL-Submit-Coaching dazu bei, diese Einschränkungen zu mildern, indem es Rückschluss-Suggestions zu den Rollouts des Modells liefert. In diesem Artikel verwenden die Autoren RL für drei Hauptzwecke:
- Verbesserung der Argumentationsqualität: Ein großes Argumentationsmodell (z. B. DeepSeek-R1) wertet die Argumentationsspuren von AR1 aus, um sicherzustellen, dass keine Inkonsistenzen oder Halluzinationen vorliegen, und weist dementsprechend eine diskrete Belohnung auf einer Skala von 0 bis 5 zu. Während DeepSeek voraussichtlich nicht in der Lage sein wird, qualitativ hochwertige Argumentationsspuren für das Fahren zu generieren, ist es deutlich einfacher, die Argumentation von AR1 auszuwerten Generationsüberprüfungslücke.
- Durchsetzung der Konsistenz von Argumentation und Handlung: die Autoren extrahieren Meta-Aktionen (beschleunigen, lenken, geradeaus fahren, …) aus dem CoC-Datensatz mithilfe regelbasierter Systeme. Wenn diese Metaaktionen den in den Begründungsspuren genannten entsprechen, erhält das Modell eine zusätzliche Belohnung von 1, andernfalls 0.
- Qualität der Flugbahn: Eine Flugbahnbelohnung misst den L2-Abstand zwischen der vorhergesagten und der Expertenflugbahn und bestraft Flugbahnen, die zu Kollisionen und starken Stößen führen.
Während der Nachschulung generiert AR1 mehrere parallele Rollouts und sammelt Belohnungen r_i basierend auf den drei oben genannten Belohnungssignalen. Diese Belohnungen werden dann verwendet, um den GRPO-Verlust zu berechnen (4). GRPO berechnet den Vorteil jedes Rollouts im Verhältnis zum Gruppendurchschnitt. Dieser baselinefreie Ansatz (im Gegensatz zu anderen RL-Algorithmen wie PPO) stabilisiert das Coaching, indem er Argumentationspfade belohnt, die ihre Gegenstücke bei derselben Eingabe übertreffen, anstatt sich auf eine willkürliche absolute Punktzahl zu verlassen.
Alles, was Sie über dieses Ziel verstehen müssen, ist, dass es darauf abzielt, die Wahrscheinlichkeit von Trajektorien (dem Log-Time period) mit einem hohen Vorteil (dem Softmax-Time period) im Vergleich zu anderen zu maximieren. Um den Verlust von Imaginative and prescient-Language-Priors aus dem VLM und des während der SFT erlangten Fahrwissens zu vermeiden, wird das Ziel durch eine KL-Divergenz zwischen der aktuellen Richtlinie und der Referenz (der am Ende der SFT erhaltenen Richtlinie) reguliert.
Auswertung
Das Bewertungsprotokoll umfasst vier Abschnitte: Flugbahnvorhersage im offenen Regelkreis, Simulation im geschlossenen Regelkreis, Ablationsstudien und Straßentests im Fahrzeug. Während die Tatsache, dass AR1 in realen Szenarien eingesetzt wurde, beeindruckend ist, sind die Ergebnisse im offenen und geschlossenen Regelkreis etwas undurchsichtig Meiner Meinung nach; Der Hauptgrund dafür ist, dass sie auf Nvidia-Datensätzen (geschlossener Regelkreis: PhysicalAI-AV-Datensatz, geschlossener Regelkreis: AlpaSim) erstellt wurden, die gleichzeitig mit dem Modell veröffentlicht wurden. Dies impliziert einen Mangel an Grundlagen zur Kontextualisierung der Leistungen von AR1.
Beispielsweise enthalten die Closed-Loop-Ergebnisse nur AR1 und eine Basislinie ohne Begründung für 75 Szenarien. Während AR1 bei allen gemessenen Kennzahlen die Basislinie übertrifft, liegt dies im Durchschnitt oft nur um ein Prozent und mit einer viel größeren Varianz als die Basislinie.

Aus diesem Grund würde ich empfehlen, diese Ergebnisse mit Vorsicht zu genießen, bevor andere Frontier-Architekturen in AlpaSim evaluiert werden.
Abschluss
Trotz des Mangels an kontextualisierten Ergebnissen bleiben AR1 und die dazugehörigen Datensätze eine beeindruckende technische Leistung und ein guter Hinweis darauf, wohin sich das autonome Fahren entwickelt: Finish-to-Finish-Modelle, die das Weltwissen von riesigen VLMs übernehmen, die auf verkörperte Aufgaben trainiert wurden.
Allerdings erfordert die Sammlung kausal fundierter Datensätze, die zur Ermöglichung einer Kausalkette erforderlich sind, erhebliche Investitionen und Kennzeichnungsaufwände, was die Reproduzierbarkeit einschränkt bis diese Datensätze veröffentlicht werden. In meinem nächsten Artikel werde ich den AR1-Ansatz einem anderen hochmodernen Modell gegenüberstellen, das vollständig auf Textetiketten verzichtet und stattdessen VLMs darin trainiert, in einem latenten Raum zu handeln und zu argumentieren.
Vielen Dank, dass Sie bis hierher gelesen haben!
Wenn Sie diesen Artikel nützlich fanden, denken Sie bitte darüber nach es teilen; Es trägt wirklich dazu bei, den Zeit- und Arbeitsaufwand zu decken, der in die Erstellung dieser Arbeit investiert wird. Wie immer, zögern Sie nicht Kontaktieren Sie mich wenn Sie Fragen, Gedanken oder Ideen für Folgemaßnahmen haben. Wenn Sie meine unabhängige Forschung und mein Schreiben unterstützen möchten, können Sie dies gerne tun kauf mir einen Kaffee 😉
Bis zum nächsten Mal! 👋
