StartseiteArtikel

NVIDIA hat die Kerntechnologien für automatisiertes Fahren veröffentlicht. Wu Xinzhou leitete die Forschung und Entwicklung. Das VLA-Großmodell und eine riesige Menge an Daten können kostenlos genutzt werden.

智东西2025-12-03 18:50
NVIDIA hat sein "maximal aufgestelltes Konto" für autonomes Fahren öffentlich gemacht, das speziell für langschwänzige Szenarien geeignet ist.

Für alle zugänglich: NVIDIA öffnet das VLA-Selbstfahrmodell quelloffen.

Kürzlich hat das Forschungsunternehmen von NVIDIA das neue Visuelle-Sprache-Aktion (VLA)-Modell Alpamayo-R1 (kurz: AR1) offiziell veröffentlicht und quelloffen gemacht. Darüber hinaus wurde klar angekündigt, dass in zukünftigen Updates Teile des Kern-Datensatzes dieses Modells ebenfalls quelloffen gemacht werden sollen.

▲ Der Datensatz für Alpamayo-R1 wurde bereits in die quelloffene Community hochgeladen.

Derzeit wurde auch der entsprechende Datensatz für dieses Modell in die quelloffene Community hochgeladen. Die Gesamtgröße beträgt etwa 100 TB. Dies ist auch das erste Mal, dass NVIDIA ein VLA-Modell quelloffen macht.

Beim Datenschutz hat NVIDIA klar gemacht, dass der Datensatz für kommerzielle und nichtkommerzielle Zwecke verwendet werden kann. Dies könnte bedeuten, dass auch Unternehmen, die bisher wenig Erfahrung mit VLA-Technologie gesammelt haben, schnell mit der Entwicklung von VLA beginnen können, indem sie sich auf NVIDIA stützen.

▲ Das Modell-Architektur von Alpamayo-R1

Diese Maßnahme bricht nicht nur die Sperre hochwertiger Selbstfahrmodelle, sondern markiert auch einen neuen Schritt in der Entwicklung der End-to-End-Selbstfahrtechnologie, von einfacher "Verhaltensnachahmung" hin zu tiefgreifendem "kausalen Denken".

Für die Selbstfahrbranche trifft das Auftauchen von Alpamayo-R1 direkt auf das derzeit am ärgerlichsten empfundene Problem - die Sicherheit in Langschwanz-Szenarien (Long-tail scenarios).

Das von NVIDIA angebotene Alpamayo-R1 soll genau dieses Problem lösen, und die Ergebnisse der praktischen Tests sind überzeugend.

▲ Die Verbesserung von Alpamayo-R1 gegenüber der Basislinie ist deutlich.

In Tests für extrem schwierige Langschwanz-Szenarien hat die Planungsgenauigkeit von AR1 gegenüber einem Basis-Modell, das nur Trajektorienvorhersagen kann, um ganze 12 % zugenommen.

In geschlossenen Simulations-Tests hat AR1 die Unfallrate, dass das Fahrzeug die Straße verlässt, um 35 % gesenkt.

Die Rate gefährlicher Nahbegegnungen mit anderen Fahrzeugen oder Fußgängern hat sich ebenfalls um 25 % stark verringert.

Was noch bemerkenswerter ist: Selbst nach der Integration eines komplexen Inferenz-Brains hat das Modell auf der NVIDIA RTX 6000 Pro Blackwell Fahrzeug-Hardware immer noch eine End-to-End-Latenz von nur 99 Millisekunden, was die strengen Anforderungen an Echtzeit-Selbstfahrten vollständig erfüllt.

01.

Lösung des End-to-End-Schwarzkastenproblems in der Selbstfahrt

Einführung eines kausalen Ketten-Datensatzes

In den letzten Jahren haben End-to-End-Großmodelle auf der Grundlage von Nachahmungs-Lernen zwar durch die Anhäufung von Daten erhebliche Fortschritte gemacht, aber im Wesentlichen sind sie eher wie ein "Schwarzkasten", der nur auswendig lernt.

Diese Modelle können die Handlungen menschlicher Fahrer präzise nachahmen, aber fehlt ihnen das Verständnis der Kausalität in der Szene. Sie wissen, dass man "bremsen muss, wenn es ein Auto vorne gibt", aber nicht "warum man bremsen muss".

Dieser Mangel an tieferem Verständnis führt dazu, dass Fahrzeuge in unbekannten, hochrisikoreichen und komplexen Straßenverhältnissen oft schwach reagieren und ihre Entscheidungslogik sogar widersprüchlich sein kann.

Die Fähigkeit des VLA-Modells, "Weltwissen" in die Fahrerkabine zu bringen, ist eine der anerkannten Lösungen für das Langschwanz-Problem in der L4-Selbstfahrt.

▲ Das VLA-Modell-Architektur von Li Auto

Aber das VLA hat nicht nur Probleme wie Modell-Halluzinationen (Hallucination) und Latenz. Die Entwicklung von VLA erfordert hohe Rechenleistung, Algorithmen und Datensätze. Derzeit werden die VLA-Einführung in Fahrzeuge nur von Top-Unternehmen wie XPeng, Li Auto, Xiaomi und DeepRoute.ai vorangetrieben.

Im Bereich der quelloffenen Projekte gibt es neben dem AR1 von NVIDIA derzeit nur akademische Projekte wie OpenDriveVLA, die weiterentwickelt werden.

Deshalb ist die quelloffene Veröffentlichung des VLA-Modells und des Datensatzes von NVIDIA wie eine Bombe, die einige neue Veränderungen in der Entwicklung und Implementierung von VLA bringt.

Genauer betrachtet hat NVIDIA bei seinem Projekt nicht versucht, an bestehenden Modellen herumzuspielen, sondern eine Revolution von der untersten Ebene der Datenaufbau an begonnen, um dem KI zu beibringen, wie ein erfahrener menschlicher Fahrer zu denken.

▲ Demonstration der kausalen Ketten-Inferenz

Um das Problem von unklaren Beschreibungen und fehlenden logischen Verbindungen in traditionellen Datensätzen zu lösen, hat das Forschungsunternehmen einen neuen "kausalen Ketten" (Chain of Causation, CoC)-Datensatz erstellt.

Der Kern dieses Datensatzes besteht darin, dem Modell eine strenge logische Schleife von "Beobachtung - Ursache - Entscheidung" beizubringen. Es lässt die KI nicht mehr so belanglose Kommentare wie "Das Wetter ist schön und die Straße ist breit" generieren.

In diesem Modell kann der Hinweisworte klar angeben: "Da ein Fahrzeug links aggressiv wechselt und ein Fußgänger vorne die Straße überquert, beschließe ich, meine Geschwindigkeit zu reduzieren und auszuweichen".

Diese Art der Datenaufbau beseitigt nicht nur die kausale Verwirrung, sondern verbessert auch die Logik des Modells.

02.

Einführung einer neuen Architektur zur Balance der Modellleistung

Mit der starken Datenunterstützung hat Alpamayo-R1 eine modulare und effiziente Architektur-Entwurf gewählt, die geschickt zwischen "langsamen Denken" und "schnellen Handlungen" balanciert.

Sein "Gehirn" wird von dem von NVIDIA speziell für physikalische KI entwickelten Cosmos-Reason Visuelle-Sprache-Modell angetrieben, das für die Verarbeitung komplexer Umweltverstehen und logischer Inferenz zuständig ist.

Die Handlungen werden von einem Aktions-Experten-Dekoder auf der Grundlage von Flow Matching-Technologie gesteuert.

Dieser Mechanismus der Arbeitsteilung ermöglicht es dem Modell, sowohl das umfangreiche Wissen des Großsprachenmodells für gründliches Denken zu nutzen als auch glatte und fahrzeugdynamikgerechte Fahrbahntrajektorien durch das Diffusionsmodell zu generieren, was das Problem der langsamen Reaktion von Großmodellen perfekt löst.

Was aber wirklich Alpamayo-R1 einzigartig macht, ist die Einbringung eines Reinforcement Learning (RL)-Mechanismus in der Trainings-Phase.

▲ Hohe Übereinstimmung zwischen Inferenz und Aktion erhöht die Belohnung.

Nachdem das Überwachungs-Lernen dem Modell die grundlegenden Fahrfertigkeiten beigebracht hat, haben die Forscher einen strengeren "Prüfer" eingeführt - ein größeres Inferenzmodell als Kritiker (Critic), das die Leistung von AR1 bewertet.

Das Ziel dieses Trainings ist sehr klar - das Modell soll seine Worte mit den Taten vereinbaren.

Dafür achtet die Belohnungsfunktion in diesem Modell nicht nur darauf, ob das Fahrzeug sicher fährt, sondern auch darauf, ob die logische Inferenz, die das Modell sagt, mit den tatsächlichen Fahrhandlungen übereinstimmt.

Wenn das Modell sagt, dass es "wegen der roten Ampel anhalten muss", aber tatsächlich beschleunigt, wird es streng bestraft.

▲ Die Qualität hat sich deutlich verbessert, nachdem das neue Reinforcement Learning-Muster eingesetzt wurde.

Diese Trainingsmethode macht die Erklärungen der KI nicht mehr zu einer nachträglichen Nachlässigkeit, sondern wirklich zu einem Entscheidungsgrundsatz, der die Fahrzeugaktionen leitet. Die Inferenzqualität hat sich dadurch um 45 % verbessert, und die Übereinstimmung zwischen Inferenz und Aktion hat sich um 37 % erhöht.

Am Ende der Studie gibt es noch ein kleines Extra: Der erste Name in der Danksagung ist Xinzhou Wu, der Leiter von NVIDIAs Selbstfahrbereich.

▲ Xinzhou Wu steht an erster Stelle in der Danksagung.

Xinzhou Wu ist ein bekannter Name in der Selbstfahrbranche. Bevor er zu NVIDIA kam, war er Vizepräsident für Selbstfahrtechnologie bei XPeng.

Im August 2023 trat Xinzhou Wu offiziell NVIDIA bei und übernahm die Position als Vizepräsident für Automobilgeschäft (Vice President of Automotive), berichtet direkt an CEO Jensen Huang und ist derzeit für die Entwicklung und Implementierung von NVIDIAs Selbstfahrsoftware-Algorithmen verantwortlich.

03.

Fazit: NVIDIAs erste quelloffene Veröffentlichung eines VLA-Modells

Die Veröffentlichung und die quelloffene Veröffentlichung von Alpamayo-R1 bedeuten nicht nur die Veröffentlichung eines Hochleistungsmodells an sich. Für die Selbstfahrbranche könnte dies der Beginn einer Neuordnung sein.

Seit langem war die Entwicklung von hochwertigen End-to-End-Selbstfahrtechnologien nur in den Händen von Giganten mit riesigen Datenmengen und Rechenleistung möglich.

Indem NVIDIA AR1 und den Datensatz quelloffen macht, bietet es der gesamten Branche eine Art "Musterlösung" für L4-Selbstfahrten, was die Einstiegshürde für kleine und mittlere Hersteller und Forschungsinstitute effektiv senkt und möglicherweise eine Reihe von Selbstfahr-Lösungen auf der Grundlage von AR1 hervorbringt.

Für NVIDIA selbst ist diese Maßnahme auch ein Ausdruck seiner "Hardware-Software-Integrations"-Strategie. Die starke Leistung von AR1 hängt von NVIDIAs mächtiger GPU-Rechenleistung und der dazugehörigen Cosmos-Framework-Toolkette ab.

Indem es die fortschrittlichste Software-Paradigma definiert, lockt NVIDIA heimlich den zukünftigen Hardware-Markt ein.

Dieser Artikel stammt aus dem WeChat-Account "Che Dong Xi", Autor: Janson, Redakteur: Zhihao. 36Kr hat die Veröffentlichung mit Genehmigung gemacht.