Tesla, Huawei und die neuen Akteure kämpfen um den Sieg: Der Weltmodell-Krieg
Im Kreis der intelligenten Fahrzeugführung gibt es Streitereien um das "Weltmodell".
Alles ist die Schuld des "Weltmodells" (World Model). Wenn Sie als Leser beispielsweise WM, WEWA, VLM, VLA unterscheiden können?
Wirklich, nachdem das "End-to-End"-Großmodell populär geworden ist, hat das Auftauchen des "Weltmodells" die Konzepte der hochwertigen intelligenten Fahrzeugführung reichhaltiger und komplexer gemacht. Jedoch treten auch Probleme auf. Was ist eigentlich ein echtes "Weltmodell"? Und wie steht es mit der Beziehung zu VLA?
Kürzlich hat jemand "Fälschungen aufgedeckt". "Ich weiß nicht, welche chinesischen Mitbewerber tatsächlich VLA entwickelt haben und nicht nur eine abgewandelte Version. Aus meinen Kenntnissen ist unsere Firma die einzige in China, die VLA wirklich umgesetzt hat."
Dies sind die Worte, die He Xiaopeng am 27. August bei einer Gruppeninterview nach der Vorstellung des neuen XPeng P7 ausgesprochen hat. Obwohl er den Gegenstand nicht genannt hat, war Li Auto die einzige Firma, die vor XPeng die Serienproduktion von VLA in Fahrzeugen angekündigt hat.
Darüber hinaus gibt es auch Leute, die sowohl mit VLA als auch mit dem Weltmodell unzufrieden sind und von der Entwicklung von WEWA sprechen.
Am gleichen Tag hat Jin Yuzhi, CEO der Business Unit für intelligente Automobil-Lösungen von Huawei, erklärt: "Wir werden nicht dem Weg von VLA folgen. Wir glauben, dass dieser Weg zwar scheinbar geschickt ist, aber tatsächlich nicht der Weg zur echten autonomen Fahrzeugführung ist."
Der Grund liegt darin, dass "Huawei mehr Wert auf WA, also World Action, legt und den Schritt der Sprache auslässt... und direkt über visuelle Informationen das Fahrzeug steuert, anstatt verschiedene Informationen in Sprache umzuwandeln und dann über ein Sprachgroßmodell das Fahrzeug zu steuern."
Wir müssen also die Frage beantworten: Warum attackiert XPeng die VLA-Lösungen seiner Mitbewerber? Warum kritisiert auch Huawei VLA?
Am Fahrzeug oder in der Cloud?
Zunächst etwas über VLA (Visuelles-Sprache-Handlungs-Großmodell). Tatsächlich war vor der Popularität von VLA das End-to-End + VLM eines der gängigen Technologieansätze in der Branche der intelligenten Fahrzeugführung. Man kann sich VLA als eine technologische Weiterentwicklung auf der Grundlage von End-to-End + VLM vorstellen, die einige Einschränkungen von End-to-End + VLM beseitigt.
Außerdem hängt in gewissem Maße auch das fortschrittlichere "natürliche Zusammenführen" von VLA von der technologischen Akkumulation des "externen Anbaus" von End-to-End + VLM ab.
Allerdings, obwohl VLA gut interpretierbar ist, ist seine Fähigkeit zur Raumwahrnehmung schwach. Dies ist auch der Grund, warum Huawei den Sprachschritt (L) auslässt und direkt zu WA (World Action) übergeht.
Während einige dagegen sind, gibt es auch Unterstützer von VLA. Zhou Guang, CEO von DeepRoute.ai, hat bei der Vorstellung seines eigenen VLA-Modells gesagt: "Die untere Grenze des VLA-Modells hat bereits die obere Grenze von End-to-End überschritten." Zhou Guang hat auch erklärt: "Sprachgesteuerte Fahrzeugführung ist nur eine Grundfähigkeit von VLA. Die schwierigsten Aufgaben sind die Denkketten (Chain of Thought, CoT) und die Langzeitsequenz-Inferenz. Dies sind die echten Kernfähigkeiten von VLA."
Warum attackiert XPeng seine Mitbewerber und behauptet, dass es das einzige ist, das echte VLA hat? Der Grund ist schwer zu sagen. Aber das neue XPeng P7-Modell hat eine erhebliche Hardware-Upgrade erhalten. Es ist mit drei Turing-Chips ausgestattet und es ist geplant, im September VLA über OTA in das Fahrzeug zu integrieren.
Natürlich unterscheidet sich Li Auto von XPeng. Li Auto nutzt am Fahrzeug ein Zwei-System-Konzept mit einem schnellen und einem langsamen System. Das schnelle System ist ein End-to-End-E2E-System, und das langsame System ist ein VLM (Visuelles-Sprache-Modell) mit 2 Milliarden Parametern (2B).
Anschließend hat Li Auto auf der Grundlage von End-to-End + VLM weiterentwickelt. Jia Peng, Leiter der Forschung und Entwicklung von Li Autos autonomer Fahrtechnologie, hat auf der GTC-Konferenz von NVIDIA im Frühjahr 2025 erklärt, dass Li Auto ein Basis-Modell von Grund auf neu entworfen und trainiert hat, das die Serienproduktion des MindVLA (Visuelles-Sprache-Handlungs)-Algorithmus-Modells für die intelligente Fahrzeugführung ermöglichen wird.
Tatsächlich ist das sogenannte Basis-Modell von Li Auto das Weltmodell, das in der Cloud betrieben wird und als "Prüfungssystem" für das End-to-End + VLM-System dient, mit "Simulations-Training + Szenen-Validierung" als Kern. Li Auto nutzt nur das Konzept von VLA am Fahrzeug für Marketingzwecke.
Es ist jedoch offensichtlich, dass XPeng die Implementierung von VLA am Fahrzeug verachtet, da die Anzahl der Parameter einfach nicht ausreicht. Li Liyun glaubt, dass das "End-to-End"-Modell am Fahrzeug zu klein ist und es schwierig ist, bestimmte Dinge zu lernen. Erst durch die Fähigkeiten eines Cloud-Großmodells können wirklich intelligente "Emergenzen" auftreten.
Bei der Vorstellung des XPeng X9 2025 hat Li Liyun, Vizepräsident der autonomen Fahrzeugführung von XPeng, erklärt, dass XPeng ein riesiges autonomes Fahr-Großmodell mit 7,2 Milliarden Parametern (72B) entwickelt, das heißt das "XPeng Welt-Basis-Modell".
Das XPeng Welt-Basis-Modell ist ein multimodales Großmodell, das auf einem Large Language Model (LLM) basiert und mit einer riesigen Menge an Fahrdaten trainiert wird. Es verfügt über die Fähigkeiten zur visuellen Verständnis, kettenförmigen Inferenz und Handlungsgenerierung. XPeng plant, das Basis-Modell über das "Destillieren" eines kleinen Modells in der Cloud auf das Fahrzeug zu übertragen. Von der Cloud zum Fahrzeug.
Li Liyun hat auch erklärt: "Eigentlich ist es so einfach wie möglich. Da wir uns vorerst nicht um die Implementierung kümmern müssen, nutzen wir zunächst das einfachste Modell, die reinenste Architektur und die riesigste Menge an Daten, um eine Intelligenz zu entwickeln, die über die Erwartungen hinausgeht, möglicherweise für das gegenwärtige 'End-to-End' noch eine Überraschung ist und in Zukunft zur Normalität wird. Dies ist unser größter Unterschied."
Wir dürfen nicht vergessen, dass in der Entwicklung der Branche es erst mit Mühe gelungen ist, vom zweistufigen End-to-End zum einstufigen End-to-End zu gelangen. Sowohl VLA als auch das Weltmodell sind neue Ansätze in der Phase des Experimentierens und Fehlersuchends. Es gibt eigentlich keine absoluten Richtigkeiten oder Fehler. Die gegenwärtigen Streitigkeiten beruhen eigentlich auf Wettbewerb.
Im Hinblick auf diese Konzepte hat ein zuständiger Verantwortlicher von Horizon Robotics auf meiner Frage bei der HSD-Erlebnis-Tagung erklärt: "Egal, ob wir von End-to-End, End-to-End + VLM, VLA oder Weltmodell sprechen, im Wesentlichen handelt es sich immer um End-to-End. Ich denke, in China legt man zu viel Wert auf neue Konzepte und Ideen."
Die Richtigkeit und Falschheit des "externen Anbaus"
Wer hat eigentlich die Idee des "Weltmodells" (das Konzept existiert schon lange) eingeführt? Tesla. Elon Musk hat den Ansatz des "Weltgroßmodells" vorgeschlagen.
Was ist die Funktion dieses Weltmodells? Um die autonome Fahrzeugführung auf allen Straßenbedingungen weltweit zu ermöglichen, hat Tesla zwischen der Wahrnehmung und der Entscheidung ein künstliches Intelligenz-Großmodell eingebaut, das hauptsächlich eine virtuelle Umgebung erstellt, um die Fähigkeiten der autonomen Fahrzeugführung zu lernen und zu validieren.
Der Ansatz besteht darin, zunächst die Daten der realen Welt in eine virtuelle Umgebung umzuwandeln, das sogenannte "Wiederherstellen". Dann hilft die virtuelle Umgebung dem System, seine Fähigkeiten unter verschiedenen Bedingungen zu validieren und zu optimieren, also "Daten zu generieren". Dieses "extern angebrachte" künstliche Intelligenz-Großmodell ist eng mit dem Entscheidungsprozess und der Steuerung verbunden.
In China war NIO die erste Firma, die dieses Konzept vorgestellt hat. Bei der NIO IN 2024 (NIO Technologie-Innovationstag) hat Ren Shaoqing, Vizepräsident der Forschung und Entwicklung der autonomen Fahrzeugführung von NIO, das NIO Weltmodell (NIO World Model, abgekürzt NWM) vorgestellt und angekündigt, dass die intelligente Fahrzeugführung von NIO von "Wahrnehmungs-gesteuert" zu "Kognition-gesteuert" übergeht.
Natürlich gibt es Unterschiede zwischen dem WM von Musk, dem NWM von NIO und dem WEWA von Huawei, obwohl alle Weltmodelle genannt werden.
Genauer gesagt möchte NIO in einem Schritt einen parallelen Welt-Engine am Fahrzeug aufbauen. Mit anderen Worten, es nutzt eine Doppelt-Architektur mit Cloud-Training und Fahrzeug-Inferenz und generiert direkt die Fahrplanung über ein generatives Modell (wie SORA), d. h. es generiert direkt Steuerbefehle aus den Rohdaten der Sensoren und überspringt die Sprach-Schicht (L).
An dieser Stelle sei erwähnt, dass laut professioneller Definition ein Weltmodell die Kombination von Videogenerierung und Prompt-Steuerung ist. Es gibt vier Haupttypen von Videogenerierung: auf Basis von GAN (Generative Adversarial Networks), auf Basis von Diffusionsmodellen, auf Basis von autoregressiven Modellen (im Wesentlichen Transformer) und auf Basis von Masking-Modellen.
Unter den Diffusionsmodellen gibt es zwei Typen: Stable Video Diffusion (SVD) und Stable Diffusion (SD). Es wird gesagt, dass Tesla SVD nutzt. Das berühmte SORA ist ein hybrides Modell. Der Kern von SORA besteht aus DiT, VAE und ViT (dies ist zu technisch und wird hier nicht weiter erläutert).
Die Vision von NIO ist "ohne manuelle Annotation". Die zugrunde liegende Logik ist, die "Wahrnehmung-Entscheidung-Steuerung" in einem einheitlichen generativen Modell zu integrieren und alles am Fahrzeug in Echtzeit abzuschließen.
Aber diese Vision und der Ansatz haben einen Fehler. Die Rechenleistung am Fahrzeug muss sehr hoch sein, und das Problem der Echtzeit-Optimierung des generativen Modells ist noch nicht vollständig gelöst. Erst Ende Mai 2025 wurde das NWM vollständig ausgerollt. Die Revolution ist noch nicht abgeschlossen, es bleibt noch viel zu tun!
Das Cloud + Fahrzeug-WEWA-Modell von Huawei hat im Prinzip dasselbe Konzept wie das WM von NIO. Die Cloud-WE (World Engine, Welt-Engine) von Huawei entspricht einem "AI-Fahrschule", während die Fahrzeug-WA (World Action Model, Welt-Handlungs-Modell) ein "AI-Fahr-Brain" mit einer einstufigen End-to-End-Architektur ist.
Was die Rechenleistung betrifft, entspricht die Gesamtanzahl der Parameter von Huawei WA einem 8-Milliarden-Parameter-Modell (8B), aber die tatsächlich aktive Rechenleistung entspricht nur einem 2-Milliarden-Parameter-Modell (2B). Huawei hat erklärt, dass der Rechenleistungsbedarf am Fahrzeug um 75 % reduziert wird. Beachten Sie diese Daten und vergleichen Sie sie mit denen von Li Auto.
Letztendlich wird das generative Weltmodell eingesetzt, um die Datenprobleme in der intelligenten Fahrzeugführung zu lösen, indem es Corner Case-Daten generiert und das System der intelligenten Fahrzeugführung in dieser virtuellen Umgebung über den Zyklus "Zustand → Handlung → Belohnung" seine Wahrnehmungs- und Entscheidungskraft optimiert. Dies erfordert die gemeinsame Wirkung von Fahrzeug und Cloud. Da die Betrachtungswinkel unterschiedlich sind, ist es besser, die Lösungen in der Praxis zu testen.
Im Vergleich zu VLA hat ein zuständiger Markt-Verantwortlicher von Horizon Robotics erklärt: "Ich bin eher optimistisch gegenüber dem Weltmodell. Aber am Ende kommt es immer darauf an, welche Nutzen ein neues Technologie für das Produkt bringt. Denn alle diese Konzepte basieren letztendlich auf End-to-End. Wenn es keine Nutzen bringt, werde ich es wahrscheinlich nicht nutzen."