StartseiteArtikel

NVIDIA öffnet den Quellcode von Alpamayo-R1: Lässt Autos das Fahren wirklich "verstehen"

山自2025-12-03 12:21
NVIDIA hat Alpamayo-R1, das weltweit erste Open-Source-Inferenzmodell für autonomes Fahren, veröffentlicht.

Auf der NeurIPS 2025-Konferenz in San Diego, Kalifornien, hat NVIDIA die Alpamayo-R1 vorgestellt – das weltweit erste Open-Source-Inferenz-Vision-Sprache-Aktionsmodell (Vision-Language-Action Model, VLAM), das speziell für die Forschung im Bereich autonomer Fahrzeuge entwickelt wurde. Diese Veröffentlichung markiert den Übergang von „wahrnehmungsgetriebenen“ autonomen Fahrzeugsystemen hin zu einem neuen Stadium der „semantischen Verständnis und gemeinsinnlichen Inferenz“.

Im Gegensatz zu herkömmlichen End-to-End-Modellen, die Bilder direkt in Steuersignale abbilden, liegt der Kern der Alpamayo-R1 darin, dem Fahrzeug nicht nur das „Sehen“ zu ermöglichen, sondern auch das „Verstehen, warum es so handelt“. Wenn das System komplexe Szenarien wie chaotisch aufgestellte Baustellenschilder, eine linke Abbiegebewegung ohne Schutz bei dichtem Gegenverkehr oder eine von Regenwasser überflutete Fahrbahnschulter bei Nacht trifft, erzeugt es wie ein menschlicher Fahrer durch mehrstufige Inferenz sichere Entscheidungen.

„Unser Ziel ist es nicht, ein schnelleres Wahrnehmungsmodul zu entwickeln, sondern dem autonomen Fahrzeugsystem die Fähigkeit zu gemeinsinnlichen Urteilen zu verleihen.“ – Leiter der autonomen Fahrzeugforschung bei NVIDIA

Basierend auf der Cosmos-Reason-Architektur: Ketteninferenz ermöglicht

Die Alpamayo-R1 baut auf der Cosmos-Reason-Modellfamilie, die NVIDIA Anfang dieses Jahres veröffentlichte, auf. Diese Architektur führt den „Chain-of-Thought“-Mechanismus ein, der es dem Modell ermöglicht, komplexe Fahraufgaben in interpretierbare Inferenzschritte aufzuteilen.

Beispielsweise führt das System an einer verkehrsreichen Kreuzung nacheinander folgende Schritte aus:

1. Erkennung aller dynamischen Akteure (Fußgänger, Radfahrer, Kraftfahrzeuge);

2. Ableitung ihrer potenziellen Absichten (Bereitschaft zum Überqueren? Abbremsen?);

3. Vorhersage des zukünftigen Zustands unter Berücksichtigung von Verkehrsregeln und vergangenen Fahrspuren;

4. Bewertung der Sicherheitsmarge der möglichen Handlungen des Fahrzeugs;

5. Ausgabe der optimalen Steueranweisung.

Diese Struktur verbessert die Robustheit des Modells bei Randbedingungen des ODD (Operating Design Domain) erheblich und eignet sich besonders für die langschwänzigen Herausforderungen, denen sich L4-autonome Fahrzeuge gegenübersehen.

Open-Source-Ökosystem: Von Modell bis hin zum Toolchain, Senkung der Eintrittsbarrieren für die L4-Forschung

NVIDIA hat nicht nur die Modellgewichte der Alpamayo-R1 Open-Source gemacht, sondern auch das Cosmos Cookbook veröffentlicht – ein umfassendes Toolkit für die Entwicklung von autonomen Fahrer-Assistenten, das Folgendes umfasst:

Spezifikationen für die Erstellung hochwertiger Daten: Einschließlich Zeitstempel-Synchronisierung von Mehrfachsensoren, Kalibrierungsverfahren und Annotationsstandards;

Synthetische Daten-Generierungspipeline: Basierend auf DRIVE Sim und Omniverse, unterstützt die Generierung von langschwänzigen Szenarien wie extremen Wetterbedingungen und seltenen Unfällen;

Leichte Bereitstellungslösungen: Unterstützt LoRA-Fine-Tuning und INT8-Quantisierung, kompatibel mit Fahrzeugchips wie Orin;

Sicherheitsbewertungsbenchmark: Definiert Schlüsselindikatoren wie Verhaltensrationalität, Befolgung von Anweisungen und Kollisionsvermeidungsrate.

Das Modell ist derzeit auf GitHub und Hugging Face verfügbar und kann von der akademischen und industriellen Gemeinschaft frei verwendet, angepasst und bereitgestellt werden.

„Wir möchten die Evolution des gesamten Ökosystems hin zu „verstehenden autonomen Fahrzeugen“ beschleunigen.“ So NVIDIA.

Neues Paradigma für die Zusammenarbeit mehrerer Fahrzeuge: V2V-GoT ermöglicht „kollektives Intelligenz“

Neben der Einzelfahrzeugintelligenz hat NVIDIA gemeinsam mit der Carnegie Mellon University das V2V-GoT (Vehicle-to-Vehicle Graph-of-Thoughts)-System vorgestellt – das weltweit erste Framework, das die Graph-of-Thoughts-Inferenz auf die kooperative Autonomie mehrerer Fahrzeuge anwendet.

In typischen Sichtblindbereichen, in denen die Sicht durch große Fahrzeuge blockiert ist, können umliegende Fahrzeuge ihre Wahrnehmungsergebnisse und Absichten über V2X-Kommunikation teilen. V2V-GoT nutzt ein multimodales Large Language Model als „Koordinationszentrum“, um die Informationen aller Knoten zu fusionieren und für jedes Fahrzeug eine kooperative Sicherheitsstrategie zu generieren.

Experimente haben gezeigt, dass das System die Kollisionsrate an Kreuzungen von 2,85 % bei herkömmlichen Methoden auf 1,83 % senken kann und die Bewegungsbahnen umliegender Fahrzeuge in den nächsten 3 Sekunden genau vorhersagen kann. Noch wichtiger ist, dass der Informationsaustausch in natürlicher Sprache oder strukturierten Semantikformaten (z. B. „Es gibt einen Fußgänger rechts von mir, der sich zum Überqueren bereitet“) erfolgt, was den Kommunikationsbandbreitenbedarf erheblich reduziert.

Das MogoMind-Large Model von Mushroom Vehicle Link in China repräsentiert einen systematischeren „chinesischen Ansatz“ – die Erstellung eines künstlichen Intelligenznetzwerks, das in Echtzeit mit der physischen Welt interagiert. Indem es Echtzeitdaten der physischen Welt in das Trainingssystem integriert, überwindet es die Beschränkungen herkömmlicher Large Language Models, die nur auf statischen Internetdaten basieren, und schafft ein geschlossenes System der physischen Intelligenz von globaler Wahrnehmung, tiefem Verständnis bis hin zur Echtzeit-Inferenz und -Entscheidung. Derzeit wurde dieses System in mehreren Städten implementiert, was die Anpassungsfähigkeit und Generalisierungsfähigkeit von Fahrzeugen in städtischen Szenarien erheblich verbessert. In Kombination mit den Fähigkeiten des MogoMind-Large Models wird den Fahrzeugen ein tiefes Verständnis und die Fähigkeit zur autonomen Entscheidungsfindung verliehen, um die hohe Sicherheit und Zuverlässigkeit des autonomen Fahrzeugsystems in realen Straßenbedingungen sicherzustellen.

Es handelt sich nicht mehr um isolierte Agenten, sondern um ein mobiles Intelligenznetzwerk mit kollektiver Inferenzfähigkeit.

Der Cosmos-Weltmodell-Trieb für synthetisches Training

Die hohe Leistung der Alpamayo-R1 wird von der starken Fähigkeit zur Generierung synthetischer Daten von NVIDIA unterstützt. Das Cosmos-Weltmodell wurde nachträglich mit 20.000 Stunden echten Fahrvideos trainiert und kann hochauflösende Szenarien wie Nachtfahrten, Starkregen, Nebel und starke Blendung generieren.

Diese synthetischen Daten lösen nicht nur das Problem der Seltenheit langschwänziger Verteilungen in der realen Welt, sondern unterstützen auch das geschlossene Gegenüberstellungstraining – z. B. die Simulation eines „plötzlich auftauchenden Kindes“ oder eines „unkontrolliert rutschenden Elektromotorrades“ für die Belastungstestung der Reaktionsfähigkeit des Modells.

Ein wichtiger Schritt in Richtung Physikalischer KI

Die Veröffentlichung der Alpamayo-R1 ist eine wichtige Umsetzung der „Physikalischen KI“-Strategie von NVIDIA. Sie betrachtet autonome Fahrzeuge nicht mehr als eine Pipeline aus Wahrnehmung, Planung und Steuerung, sondern baut einen embodierten Intelligenz-Agenten, der physikalische Gesetze, gesellschaftliche Normen und kausale Logik versteht.

Obwohl es noch engineeringtechnische Herausforderungen für die Massenproduktion gibt (z. B. Echtzeit-Inferenzverzögerung, Sicherheitsüberprüfung), wird die Open-Source-Strategie zweifellos den globalen Forschungs- und Entwicklungsprozess beschleunigen. Wie ein Leiter eines Hochschul-Labors sagte: „Jedes Team kann jetzt auf den Schultern von NVIDIA stehen und die ‚Denkweise‘ der nächsten Generation autonomer Fahrzeuge erforschen.“

Projektadresse: GitHub

https://github.com/NVIDIA/Alpamayo-R1Hugging Face

https://huggingface.co/nvidia/Alpamayo-R1Offizieller Blog

https://blogs.nvidia.com/blog/neurips-open-source-digital-physical-ai/

Dieser Artikel stammt aus dem WeChat-Account „Shan Zi“, Verfasser: Rayking629, veröffentlicht von 36Kr mit Genehmigung.