Es ist schon 2026. Ist es wirklich notwendig, noch darüber zu streiten, ob VLA oder Weltmodelle besser sind?
Die Branche der autonomen Fahrtechnik hat sich in letzter Zeit wieder in die Debatte gestürzt.
In den letzten Tagen hat auf der ID. ERA Technologie-Presskonferenz von SAIC Volkswagen der CEO von Momenta, Cao Xudong, offiziell angekündigt, dass ihr Momenta R7 Weltmodell auf Basis von verstärktem Lernen bald auf den Markt kommen wird und weltweit erstmals im neuen Flaggschiff-SUV ID.ERA 9X von SAIC Volkswagen verbaut werden wird.
Nach der Veröffentlichung eines end-to-end Großen Modells auf Basis von verstärktem Lernen im vergangenen Jahr hat Cao Xudong bei der Entwicklung des neuen Modells den Ansatz von Weltmodell + verstärktes Lernen gewählt. Somit ist neben Huawei Qiankun ein weiterer Akteur auf dem Gebiet des Weltmodells hinzugekommen.
Zur gleichen Zeit hat Li Auto auf der GTC-Konferenz in den letzten Tagen sein neues autonomes Fahr-Grundmodell MindVLA-o1 vorgestellt.
Laut der Einführung von Zhan Kun, dem Leiter des Li Auto-Grundmodells, hat dieses Grundmodell durch sechs technologische Innovationen ein autonomes Fahr-Grundmodell für die Intelligenz der physischen Welt aufgebaut, wodurch das autonome Fahren weiter sehen, tiefer denken, stabiler fahren, schneller evolvieren und effizienter deployiert werden kann.
In den letzten ein bis zwei Jahren hat Li Auto bei der Iteration seiner autonomen Fahrtechnologie eine sehr schnelle Geschwindigkeit beibehalten. Von der Veröffentlichung des end-to-end + VLM Doppel-Systemmodells im Jahr 2024 über die Vereinigung von Raumverständnis, Sprachverständnis und Handlungsentscheidungen in einem einzigen Modellrahmen - dem VLA Fahrer-Großen Modell - im vergangenen Jahr bis hin zum MindVLA-o1 in diesem Jahr kann man sagen, dass es eine Iterationsrate von einem Modell pro Jahr gibt.
XPeng Motors, ebenfalls ein Mitglied der VLA-Camp, hat vor kurzem sein zweites VLA-Modell offiziell vorgestellt und die Serienproduktion begonnen. Nur vier Monate sind seit der Veröffentlichung des zweiten VLA-Modells vergangen. Im Vergleich zu der traditionellen VLA-Architektur hat XPeng erstmals eine neue VLA-Architektur vorgeschlagen, die die beiden expliziten Übersetzungsprozesse entfernt.
Während Li Auto, XPeng und Yuanrong in den letzten zwei Jahren ihre Algorithmen von end-to-end zu VLA-Modellarchitekturen entwickelt haben, haben andere Akteure wie Huawei Qiankun sich für eine Weltmodellarchitektur entschieden, die stärker auf das Verständnis der realen Welt abzielt.
Somit hat die gesamte Branche der autonomen Fahrtechnik begonnen, über die Vor- und Nachteile von VLA und Weltmodell zu streiten. Die Anhänger beider Lager sind der Meinung, dass der von ihnen vertretene Ansatz das Endziel der Branche sein wird. Nach theoretischen Überlegungen haben beide Ansätze ihre eigenen Schwächen.
Angesichts der Tatsache, dass Momenta auf das Weltmodell setzt und Li Auto, XPeng und Yuanrong Qixing die Optimierung ihrer VLA-Modelle beschleunigen, hat diese Debatte noch mehr Fahrt aufgenommen. Doch aus der Sicht von Feishuo Zhixing stehen die beiden Technologien VLA und Weltmodell nicht unbedingt in Konkurrenz zueinander.
1. Nur unterschiedliche Aufgaben, keine absolute Konkurrenz
Das traditionelle VLA-Modell steht vor deutlichen Herausforderungen.
Zunächst ist die Effizienz bei der Abstimmung der drei Aufgaben - das Verständnis der 3D-Raumumgebung, das sprachliche Denken und die Ausgabe konkreter Fahrbahntrajektorien - nicht hoch. Des Weiteren gibt es das Problem der seltenen Szenarien. Schließlich enthält das VLA-Modell oft die Fähigkeiten eines Large Language Models (LLM), was hohe Rechen- und Speicherkosten verursacht.
Um diese Probleme zu lösen, hat Li Auto das MindVLA-o1 vorgeschlagen. Dieses Modell ist ein Multi-Modal MoE Transformer. Das bedeutet, dass das Modell die Fähigkeit zur einheitlichen Training und Abstimmung von verschiedenen Modalitäten wie Vision, Sprache und Handlung sowie eine starke Generalisierungsfähigkeit besitzt.
Beim Wahrnehmungsaspekt haben sie einen 3D ViT Encoder eingeführt, der es ermöglicht, LiDAR-Daten und visuelle Daten früher zu fusionieren und bereits in der Codierungsphase eine 3D-Raumdarstellung aufzubauen, so dass das Modell die physikalische Raumstruktur der realen Welt natürlicher verstehen kann.
Darüber hinaus haben sie eine Feedforward 3D Representation (3DGS) eingeführt, um das Verständnis der Umgebung zu verbessern.
Für hochwertiges autonomes Fahren und sogar vollständiges autonomes Fahren reicht es nicht aus, nur die aktuelle Umgebung zu verstehen. Es ist auch erforderlich, die Welt vorherzusagen. In der Branche wird oft an die Verwendung eines Weltmodells mit mehreren Milliarden Parametern gedacht. Aber ein solches Modell ist schwer auf dem Fahrzeug zu betreiben, so dass das Fahrzeug keine "Vorhersage"-Fähigkeit erlangen kann.
Daher hat Li Auto "Next-state prediction" als selbstüberwachendes Signal im Trainingsverlauf eingeführt und die Sprachfähigkeit für die Multi-Modal Inferenz beibehalten. Gleichzeitig wird ein Predictive Latent World Model eingesetzt.
Das Predictive Latent World Model ist kurz gesagt ein stark komprimiertes Weltmodell. Es enthält keine Bilder oder Punktwolken der realen Welt, sondern abstrakte Vektoren nach der Codierung.
Beim Training werden zunächst die Multi-Modal Wahrnehmungsdaten komprimiert und in einem latenten Raum das aktuelle Verständnis und die Vorhersage zukünftiger Umweltveränderungen durchgeführt. Schließlich werden die Ergebnisse für die gemeinsame Training des Algorithmus und der Fahrentscheidungen verwendet. Im Vergleich zur Vorhersage auf der Ebene realer Daten ist dies viel schneller und verbraucht weniger Rechenleistung.
Das Ergebnis ist, dass das Algorithmusmodell die Fähigkeit zum "Vorstellen" erhält, d. h. die "Generative Multimodal Thinking"-Fähigkeit, wie Zhan Kun es nennt. Gleichzeitig wird der Rechenaufwand auf ein Niveau reduziert, das von der Rechenleistung des Fahrzeugs für die Echtzeitverarbeitung unterstützt werden kann.
Um die Informationen des Fahrzeugs zum Denken und Vorstellen in eine endgültige Fahrbahntrajektorie umzuwandeln, hat Li Auto ein Unified Action Generation-Modul entwickelt, das hauptsächlich aus drei Fähigkeiten besteht:
Zunächst wird ein VLA-MoE-Modell verwendet, in dem speziell ein Action Expert eingeführt wurde, der sich auf die Generierung hochpräziser Fahrbahntrajektorien konzentriert. Zweitens wird Parallel Decoding eingesetzt, das es ermöglicht, alle Trajektorienpunkte parallel zu generieren. Dies ist für die Vorhersage von langen Trajektorienfolgen sehr wichtig.
Um die Qualität der parallel generierten Trajektorien zu gewährleisten, haben sie auch Discrete Diffusion als Optimierungsmethode eingeführt, damit das Modell die Trajektorien durch mehrfache Iterationen kontinuierlich optimiert und schließlich eine Trajektorie erhält, die räumlich kontinuierlich, zeitlich stabil und den Fahrzeugdynamikbedingungen entspricht.
Angesichts komplexer Verkehrsumgebungen muss die Trajektoriengenerierung schnell, stabil und verschiedene Entscheidungswege abdecken. Bisher war es schwierig, diese drei Anforderungen zu erfüllen, aber jetzt hat Li Auto eine kombinierte Lösung gefunden.
Nachdem das Modell aufgebaut wurde, stellt sich die Frage, wo man die Daten herholt.
In den letzten Jahren basierte das Training von autonomen Fahralgorithmen hauptsächlich auf realen Daten aus menschlichem Fahrverhalten. Diese Daten können jedoch nicht alle seltenen Szenarien abdecken.
Deshalb hat Li Auto einen erweiterbaren Welt-Simulator aufgebaut, der die traditionelle schrittweise Optimierungsrekonstruktion in eine Feed-forward-Szenariorekonstruktion umgewandelt hat. Dadurch kann das Modell in kurzer Zeit eine große Anzahl von hochwertigen Fahrscenarien generieren, was die Massenparallel-Training unterstützt.
Zusätzlich haben sie diese Feed-forward-Szenariogenerierung mit einem Generative Model kombiniert, so dass die Simulationsumgebung nicht nur reale Szenarien rekonstruieren, sondern auch erweitern, bearbeiten und neue Szenarien generieren kann.
Dieser erweiterbare Welt-Simulator befindet sich in einem Closed-loop RL-Framework. Das bedeutet, dass das Modell nicht nur auf realen Daten trainiert werden kann, sondern auch in dem Welt-Simulator auf Szenarien stoßen kann, die in der Realität selten auftreten. Dann kann es in diesem Simulator erkunden, optimieren und iterieren, um das Problem der seltenen Szenarien nahezu vollständig zu lösen.
Um das Modell in das Fahrzeug zu integrieren, hat Li Auto ein Analyseframework namens Roofline verwendet, um eine genaue Abbildung zwischen der Modellgenauigkeit und der Inferenzverzögerung herzustellen. Durch das Testen von etwa 2.000 verschiedenen Modellkonfigurationen und die Validierung auf den NVIDIA Drive Orin und Thor-Plattformen haben sie schließlich den optimalen Kompromiss zwischen Genauigkeit und Verzögerung gefunden.
Laut Zhan Kun hat diese Hardware-Software-Ko-Design-Methode die Zeit für die Modellarchitekturforschung von Monaten auf Tage verkürzt, was die Design-Effizienz und die Deploy-Geschwindigkeit des VLA-Modells auf der Endgeräteseite erheblich verbessert hat.
Aus der obigen Analyse kann man sehen, dass das Li Auto MindVLA-o1-Modell die Herausforderungen des traditionellen VLA-Modells im Wesentlichen gelöst hat. Das MindVLA-o1 zusammen mit dem VLA-Daten-Engine MindData, dem Multi-Modal Weltmodell MindSim und dem Reinforcement Learning-Modul RL Infra bilden das Gesamtbild des Li Auto-Grundmodells für die Intelligenz der physischen Welt.
Es ist bemerkenswert, dass das Li Auto-Grundmodell sowohl das Weltmodell als auch die VLA-Architektur umfasst. Diese beiden Modelle haben in diesem Rahmen unterschiedliche Aufgaben und arbeiten zusammen. Es gibt viele solche Beispiele.
Bei der ICCV-Konferenz im November letzten Jahres hat Ashok Elluswamy, der Vizepräsident für autonomen Fahrbetrieb von Tesla, den neuesten Fortschritt der Tesla-Algorithmenarchitektur vorgestellt. Dabei wurden Technologien wie 3D-Gauss-Features und Chain of Thought (COT) eingesetzt, um die Datenqualität und die Interpretierbarkeit des Modells zu verbessern. Gleichzeitig wurde ein Closed-loop-Simulationssystem namens "Neural World Simulator" aufgebaut.
Tesla Closed-loop Simulations-Neurales Netzwerk-Modell, Bildquelle: Tesla AI
Man kann sehen, dass auch in Teslas gegenwärtigem Algorithmenforschungssystem sowohl das VLA-Modell als auch das Weltmodell integriert sind. Feishuo Zhixing hat dies in einem Artikel namens "Deep Dive | Tesla ist nicht mehr die 'Standardlösung' in der Branche der autonomen Fahrtechnik" bereits erläutert, daher wird hier nicht weiter darauf eingegangen.
Außerdem benötigen sowohl das zweite VLA-Modell von XPeng, das bereits in Serienproduktion ist, als auch das VLA-Grundmodell von Yuanrong, das auf der GTC in den letzten Tagen vorgestellt wurde, die Daten-Closed-loop-Fähigkeiten des Weltmodells, wie die Massensimulationstraining, die Szenariodaten-Generierung und die Vorhersage und Analyse von Fahrverhalten.
Die oben genannten Akteure kombinieren die beiden Technologien VLA und Weltmodell, um ihr eigenes Algorithmus-Grundmodell zu entwickeln. Dies ist auch Vorbereitung auf ein größeres Ziel.
2. Physik-AI: Autonomes Fahren ist nur der Anfang
Bei der Forschung und Entwicklung von intelligenter Fahrtechnik oder autonomem Fahren haben alle in der Branche dasselbe Ziel - wie kann man für Maschinen ein "digitale Gehirn" schaffen, das in der realen Welt funktionieren kann?
Nehmen wir das Autofahren als Beispiel. Nach einem systematischen Fahrunterricht und langjähriger Fahrpraxis können wir in wenigen Hundert Millisekunden eine Einschätzung über die Verkehrssituation treffen und das Fahrzeug sicher manövrieren. Für "alte Hasen" ist diese Fähigkeit bereits ein Muskelgedächtnis.
Im Vergleich dazu ist die intelligente Fahrassistenztechnologie von der "nutzbaren" zur "gut nutzbaren" Phase gelangt. Doch es ist noch ein langer Weg, bis sie so gut wie die Fähigkeiten eines menschlichen Fahrers ist und von den Nutzern gerne genutzt wird.
Und auf der jüngsten GTC hat Li Auto in der Entwicklung des "digitalen Gehirns" einige Fortschritte erzielt.
Das oben erwähnte Li Auto-Grundmodell für die Intelligenz der physischen Welt, von der visuellen Wahrnehmung über das Weltverständnis und die Inferenz bis hin zur Handlungsentscheidung, zur kontinuierlichen Optimierung durch Reinforcement Learning und schließlich zur Systemeffizienz und Hardware-Koordination, sieht aus wie das Gehirn eines Tieres, so Zhan Kun.