NVIDIA hat erstmals das autonome Fahrer-Assistenzsystem VLA (Visual Large Autopilot) open source gemacht. Robotaxis sind in die "Android-Epoche" eingetreten. Das Projekt wird von Wu Xinzhou und einem rein chinesischen Team umgesetzt.
Wie ist das Gefühl, wenn das Betreiben von Robotaxis genauso einfach ist wie das Herstellen von Smartphones?
NVIDIA hat gerade auf der renommierten AI-Konferenz NeurIPS das Alpamayo-R1 vorgestellt –
NVIDIAs erstes autonomes Fahrmodell VLA, das in allen Leistungskategorien um über 30 % besser ist als herkömmliche End-to-End-Systeme und zudem open source zur Verfügung gestellt wird.
Angesichts der Tendenz, dass Multimodal-Großmodelle die autonome Fahrzeugführung dominieren, könnte die Schwelle für das Betreiben von Robotaxis tatsächlich stark sinken: Man kann einfach NVIDIA-Chips kaufen und die Algorithmen von NVIDIAs VLA adaptieren, und dann noch einige Anpassungen an Stil und Szenarien vornehmen … genau wie Smartphone-Hersteller.
Jensen Huang zeigt nun endgültig seine Ambitionen in der autonomen Fahrzeugführung: NVIDIA will der "Android" des autonomen Fahrens werden.
Welches Problem löst das Alpamayo-R1?
Interessanterweise war NVIDIA der Pionier der End-to-End-autonomen Fahrzeugführung, doch das Ziel der neuesten VLA-Forschung ist es, die Schwächen der End-to-End-Ansatzes zu beheben.
End-to-End-Systeme arbeiten von der Wahrnehmung bis zur Steuerung in einem Zug und werden mit Daten von erfahrenen menschlichen Fahrern trainiert. Theoretisch können sie unendlich "menschenähnlich" sein und alle Arten von Randfällen bewältigen.
Tatsächlich geraten bereits in Serie gehende Systeme aber oft in Schwierigkeiten – beispielsweise wenn entgegenkommende Fahrzeuge rechtswidrig links abbiegen, Fußgänger plötzlich in die Straße laufen, es zu Baustellen kommt oder Verkehrsschilder verdeckt sind.
NVIDIA führt das Scheitern von End-to-End-Systemen in Randfällen auf die Grenzen des End-to-End-Ansatzes zurück – sie können sehen, aber nicht verstehen, was auch als "Black-Box-Effekt" bekannt ist.
NVIDIAs Lösung ist das Visuelle-Sprache-Aktions-Modell, das populäre VLA.
Schauen wir uns zunächst die Ergebnisse an:
Sowohl das Vergleichsmodell (Baseline) als auch das Alpamayo-R1 wurden auf dem von NVIDIA erstellten CoC-Datensatz trainiert, der selbst ein wichtiger Bestandteil dieser Forschung ist.
CoC steht für Kausalkette, die eine wichtige Grundlage für die Interpretierbarkeit des Modells ist.
Das Baseline-Modell im Vergleichsexperiment ist ein reines Trajektorien-Ausgabe-Modell, das auf dem CoC-Datensatz trainiert wurde und selbst keine Inferenzfähigkeit hat.
Die Verbesserungen in den Experimenten zeigen sich wie folgt:
Die Planungsgenauigkeit steigt um 12 %, die Übergrenzungsrate sinkt um 35 %, die Kollisionsgefahr in der Nähe sinkt um 25 %, die Übereinstimmung zwischen Inferenz und Aktion steigt um 37 % und die End-to-End-Latenz sinkt auf 99 ms.
Das Alpamayo-R1 verbessert sich vor allem in Szenarien, in denen es früher am häufigsten zu Fehlern kam – das heißt, es kommt einem "echten, urteilsfähigen Fahrer" näher.
Bisher war völlig unklar, ob End-to-End-Systeme verstehen können. Wie kann NVIDIA nun feststellen, dass das Modell "versteht"?
Wie wird das Problem gelöst?
Das Alpamayo-R1 umfasst drei wichtige Aspekte. Der erste ist der bereits erwähnte Chain of Causation (Kausalkette)-Datensatz.
Dies ist ein neues System zur Datenannotierung. Jeder Fahrdatenabschnitt enthält nicht nur Informationen darüber, "was getan wurde", sondern auch "warum es so getan wurde". Beispielsweise: "Verlangsamen und nach links wechseln, weil es vorne ein Motorroller an der Ampel gibt und die linke Fahrspur frei ist":
Der CoC-Datensatz ist eine Weiterentwicklung und Erweiterung des CoT-Datensatzes und konzentriert sich vor allem auf die "Kausalität". Dadurch werden Probleme wie unklare Verhaltensbeschreibungen, verwirrende Kausalzusammenhänge und der Bruch zwischen Verhaltensinferenz und Kausalität im CoT-Datensatz weitgehend vermieden.
Natürlich erfordert die Annotierung und Kalibrierung des CoC-Datensatzes weiterhin die menschliche Eingabe.
Das AR1 basiert auf NVIDIAs Cosmos Reason-Modell, einem Inferenz-Visuelle-Sprache-Modell, das speziell für Physical AI entwickelt wurde:
Das wichtigste Merkmal der gesamten Architektur ist die kausal strukturierte Inferenz anstelle der freien Erzählung. Das bedeutet, dass das Modell die Sicherheit und Gesetzmäßigkeit seiner Handlungen anhand von beobachtbaren historischen Beweisen erklären muss –
Dies ist der zweite wichtige Innovationseinsatz: die Verwendung der Multi-Stage Training-Strategie (Mehrstufiges Trainingsverfahren):
Zunächst wird eine Modaleinjektion auf großen Fahrdatensätzen durchgeführt, um die grundlegende Abbildung von der visuellen Wahrnehmung zu den Aktionen zu lernen;
Im zweiten Schritt wird eine überwachte Feinabstimmung auf den CoC-Kausalkettendaten vorgenommen, um dem Modell beizubringen, "zuerst nachzudenken und dann zu fahren";
Schließlich wird die Inferenzqualität, die Übereinstimmung zwischen Inferenz und Aktion sowie die Trajektorensicherheit durch Reinforcement Learning (RL) weiter optimiert.
Dieser stufenweise Trainingsablauf mit definierten Zielen macht das Modell robuster in offenen Szenarien und in seltenen, gefährlichen Situationen.
Im Trajektorien-Ausgabestadium führt das AR1 einen Trajektoriendekoder auf Basis eines Diffusionsmodells ein, der unter Echtzeitanforderungen kontinuierliche und dynamisch machbare Fahrbahntrajektorien generieren kann. Dieser Modul kombiniert die sprachliche Inferenzausgabe mit physikalischen Beschränkungen, um eine nahtlose Verbindung von der Inferenz zur Steuerung herzustellen:
Das Grundprinzip des Diffusionsmodells besteht darin, dass in einem Vorwärtsvorgang Schritt für Schritt Rauschen zum Datensatz hinzugefügt wird, bis die Daten vollständig zufällig werden, und dann in einem Rückwärtsvorgang das Rauschen schrittweise entfernt wird, um neue Datenproben zu generieren.
Diese Generationsmethode ermöglicht es dem Modell, die komplexe Verteilung der Daten zu erfassen und verschiedene Proben zu generieren, indem der Prozess des Hinzufügens und Entfernens von Rauschen gesteuert wird.
Fassen wir den Ablauf und das Prinzip des AR1 zusammen. Wie andere autonome Fahrsysteme besteht die Eingabe aus Beobachtungsbildern von mehreren Kameras und verschiedenen Zeitpunkten. Zusätzlich kann optional eine hochwertige sprachliche Eingabe (z. B. Navigationsanweisungen oder Fahrziele) hinzugefügt werden.
Alle Eingaben (einschließlich der historischen Bewegung des eigenen Fahrzeugs) werden in eine multimodale Token-Sequenz kodiert, die nach Zeitfolge und Sensorreihenfolge angeordnet wird und dann in das Kernmodell Cosmos-Reason zur Inferenz und Vorhersage eingegeben wird.
Zunächst werden die Bilder aus jeder Kameraperspektive durch ein leichtgewichtiges CNN und ein Zeit-Attention-Modul komprimiert und zeitlich modelliert, und dann zu einer BEV (Bird's-Eye-View)-Darstellung fusioniert. Anschließend werden alle Modalitäten (Bilder, Navigationstexte, Fahrzeugzustand) tokenisiert und in einen Transformer eingegeben.
Die Ausgabe des Modells umfasst drei Arten von Token: Inferenzketten (reasoning traces), mittlere Aktionen (meta-actions) und zukünftige Trajektorienvorhersagen (trajectories).
Die größte Innovation besteht darin, dass das multimodale autonome Fahrmodell eine interpretierbare semantische Verständnisfähigkeit erhält und diese mit der Bewegungszustandswahrnehmung verknüpfen kann, um eine klare kausale Beziehung zwischen Eingabe und Ausgabe herzustellen.
Woher kommt das Alpamayo-R1?
Das Alpamayo-R1 kann zwar als VLA-Modell angesehen werden, aber es unterscheidet sich grundlegend von den derzeit gängigen "End-to-End + Large Language Model add-on"-VLA-Modellen in der Branche.
Das Alpamayo-R1 ist ein rein natives multimodales Modell, das auf dem Cosmos Reason-Modell basiert, das NVIDIA Anfang des Jahres auf der CES vorgestellt hat und Teil des Cosmos-Basis-Weltmodells ist.
Das Cosmos-Modell ist eigentlich die "Zwischenschicht" zwischen AI und der physischen Welt von NVIDIA und bietet eine grundlegende Physical-AI-"Android"-Vorlage für alle Branchen – ein "Universalist"-Weltmodell.
Die Trainingsmethoden für das Basismodell sind das Diffusionsmodell und das autoregressive Modell. Bei dem auf Diffusion basierenden Weltmodell (WFM) umfasst das Pre-Training "Text-to-World-Generierungs-Pre-Training" und "Frequenz-to-World-Generierungs-Pre-Training"; bei dem auf autoregressivem Verfahren basierenden WFM umfasst es "Next-Token-Generierung" und "Text-konditionierte Video-to-World-Generierung".
Für das Alpamayo-R1 entspricht das Pre-Training eigentlich dem Trainingsvorgang auf dem CoC-Datensatz.
Das Basismodell des Alpamayo-R1 ist das Cosmos Reason, eine Erweiterung des AI-Inferenzmodells von Cosmos, dessen Hauptfähigkeit darin besteht, Videodaten durch Kausalketten-Inferenz zu verstehen.
Das aktuelle Alpamayo-R1 bestätigt auch die neue Strategie, die Jensen Huang für NVIDIA in der AI-Welle geplant hat – neben der Recheninfrastruktur will NVIDIA auch die "Android"-Grundlage für Physical AI in Bereichen wie Robotik und autonomem Fahren schaffen.
Beim Alpamayo-R1 geht es weniger um die Fähigkeiten des Basismodells, sondern eher um die von Jensen Huang propagierte Architekturparadigma und Trainingsmethode des VLA – das Alpamayo-R1 ist flexibel und offen und kann verschiedene Basismodelle unterstützen.
Der wahre Wert dieser Forschung liegt in der neuen Annotierungsmethode des CoC-Datensatzes und dem Großmodellparadigma, das Kausalzusammenhänge in Szenarien durch Kausalketten-Inferenz verstehen kann.
Jensen Huang hat bereits mehrmals erklärt, dass Physical AI der nächste "Trend" in der KI ist, nach der Ansicht von NVIDIA. Der wichtigste Schritt dabei ist die Schaffung einer "Zwischenschicht" zwischen der physischen Welt und der KI. Firmen und Privatpersonen aus allen Branchen, sogar ohne starke KI-Algorithmenfähigkeiten, können mit starken Basismodellen und Prozesswerkzeugen ihre eigenen Produkte entwickeln.
Neulich hat NVIDIA seine Robotaxi-Strategie angekündigt. Es gibt Fahrzeuge und Lösungen, und es hat auch Uber als Partner gewonnen.