StartseiteArtikel

Handbuch für die Verwendung von "Jargon" in der automatisierten Fahrweise: Neue Kraft in der Automobilindustrie "erfindet" wieder neue Begriffe

云见 Insight2025-10-20 16:28
Hinter den "Jargonwörtern" steht ein Kampf um die Macht über die technologische Sprecherrolle der nächsten Generation.

"End-to-End" hat sich noch nicht vollständig erfüllt, "VLA" ist stumm aufgetaucht, und das "Weltmodell" wird zum neuen technologischen Totem ...... In der Branche des autonomen Fahrens gibt es immer mehr "Jargon", der auch immer unverständlicher wird.

Sowohl Li Auto als auch XPeng setzen auf VLA (Visual language Action, visuell-sprachlich-handlungsfähiges Modell) als nächste Technologiearchitektur und behaupten, dass es Fahrzeugen die Fähigkeit zum "Denken" verleihen kann. Huawei hingegen bezeichnet VLA als "kurzsichtige" Technologie und setzt stattdessen auf sein eigenes WA (World Behavior Architecture, Weltverhaltensarchitektur), indem es die "Weltmodell"-Technologie direkt im Fahrzeug implementiert. Ren Shaoqing, Vizepräsident von NIO, betonte in einem kürzlichen Interview: NIO war das erste Unternehmen in China, das das Konzept des Weltmodells vorgeschlagen hat.

Hinter dem unaufhörlichen Strom an "Jargon" verbirgt sich ein Machtkampf um die Führung in der nächsten Generation der Technologie für autonomes Fahren. Wenn sich Hardware und Ausstattung zunehmend angleichen, wird die Fähigkeit des intelligenten Fahrens zum wichtigsten Identifikator für die neuen Automobilhersteller. Wer die Zukunft zuerst definiert, hat die Möglichkeit, die Wahrnehmung der Kunden und die technologische Marke in die Höhe zu heben. Der unverständliche "Jargon" ist nicht nur eine Erklärung der technologischen Richtung, sondern auch eine sorgfältige Verpackung der technologischen Marke.

Dennoch liegt hinter den lauten Konzepten eine Kluft zwischen der realisierten Erfahrung und dem Druck auf das Entwicklerteam. Wie Wu Xinzhou, Vizepräsident für autonomes Fahren bei XPeng, vor zwei Jahren sagte: "Autonomes Fahren ist keine Werbetheorie." Dennoch sind "Vorfreude"-Technologieankündigungen immer noch weit verbreitet. Ein leitender Angestellter eines Automobilherstellers gestand gegenüber "Yunjian Insight" seine Sorgen: Um vor den Konkurrenten zu veröffentlichen, wird das Team oft gezwungen, Technologien vor ihrer Reife vor die Öffentlichkeit zu bringen. Nahe dem Liefertermin gerät das Team in Panik. Eine Verzögerung oder jegliche Fehler nach der Veröffentlichung sind nicht akzeptable Ergebnisse.

Technologie sollte eigentlich Fortschritt antreiben. Wenn jedoch die Geschwindigkeit der "Neuwortschöpfung" schneller ist als der technologische Fortschritt, erhalten die Kunden möglicherweise nicht ein "umbruchsbares Erlebnis", sondern eine Beta-Version, die ständig optimiert werden muss. Dieser Artikel versucht, die Entwicklung der Technologie für autonomes Fahren hinter den Fachausdrücken aufzuzeigen und den Kunden ein "Handbuch für den Jargongebrauch" beizufügen.

Ursprung des Jargons

Vor 2022 war der technologische Entwicklungsweg in der Branche des autonomen Fahrens relativ klar und wurde hauptsächlich von Tesla und Waymo definiert. Die technologischen Begriffe waren meist objektive Beschreibungen bestimmter Funktionen.

Die frühen Systeme für Assistentenfahrweise basierten auf Regeln, die von Ingenieuren geschrieben wurden, und waren in drei Module unterteilt: Wahrnehmung, Planung und Steuerung. Seit 2016 hat Tesla durch die Eigenentwicklung von Softwarealgorithmen und dem FSD-Chip die Branche von der Regelzeit in die Ära der Künstlichen Intelligenz (AI) geführt.

Die beiden AI DAY-Veranstaltungen, die Tesla 2021 und 2022 durchführte, hatten einen tiefgreifenden Einfluss auf die Branche. Bei der ersten AI DAY stellte Tesla die BEV+Transformer-Technologiearchitektur vor. Dieses Konzept projiziert die 2D-Bilder, die von mehreren Kameras aufgenommen werden, in ein einheitliches 3D-Bird's-Eye-View-Koordinatensystem, um eine 360°-Umsicht um das Fahrzeug herum zu schaffen (BEV, Bird’s-Eye-View), wodurch das Problem der Verdeckung und der Perspektive effektiv gelöst wird. Gleichzeitig stellte Tesla auch das frühe Konzept des Occupancy Network vor, das die 2D-Bilder direkt in einen 3D-Vektorraum umwandelt.

Davor war es üblich, dass jedes Kamerabild separat von einem Convolutional Neural Network (CNN) verarbeitet und dann in eine 3D-Umgebung integriert wurde. Mit der BEV+Transformer-Technologie wird eine "Früherfassung" der Merkmale über mehrere Kameras hinweg ermöglicht, was die Wahrnehmungsfähigkeit erheblich verbessert.

Das hat es Tesla ermöglicht, sich von der Abhängigkeit von hochpräzisen Karten zu lösen und eine breitere Anwendbarkeit in verschiedenen Szenarien nur mit den Sensoren im Fahrzeug zu erreichen. Später hat Tesla die NOA-Funktion (Navigation Assisted Driving) in der FSD Beta V11-Version von Autobahnen auf Stadtstraßen erweitert.

Die neuen chinesischen Automobilhersteller und Anbieter von Assistentenfahrweisen haben diese Technologie schnell übernommen. Aufgrund des technologischen Abstands in der neuronalen Netzwerk-Algorithmen und der Skepsis gegenüber der reinen visuellen Route haben sie in der Anfangsphase allgemein Informationen von Lidar-Sensoren oder 4D-Millimeterwellenradar-Sensoren integriert.

Von 2022 bis 2023 haben XPeng mit XNGP, NIO mit NOP+ und Li Auto mit AD Max 3.0 sowie Huawei mit ADS2.0 jeweils eigene BEV+Transformer-Lösungen in Serie gebracht und damit einen Wettlauf um die Eröffnung von Städten für die NOA-Funktion ohne Karten begonnen.

Paradigmenwechsel: End-to-End

Wenn die AI DAY 2021 eine Revolution in der Wahrnehmungstechnologie ausgelöst hat, hat die AI DAY 2022 die Grenze zwischen Wahrnehmung und Planung völlig durchbrochen und einen Paradigmenwechsel hin zu einer Architektur mit "End-to-End" als Kern getrieben.

Tesla hat auf der Veranstaltung einen Vorschau der Architektur von FSD Beta V12 gezeigt: Ein riesiges neuronales Netzwerk verarbeitet gleichzeitig Wahrnehmung und Planung und ersetzt 300.000 Zeilen Code, die von Ingenieuren geschrieben wurden. Das aktualisierte Occupancy Network verbessert die Wahrnehmungsfähigkeit erheblich, indem es den 3D-Raum in winzige Voxel unterteilt, um unbekannte Hindernisse zu erkennen.

Die neuen chinesischen Automobilhersteller haben erneut "an Teslas Fersen gelaufen" und sich kollektiv der End-to-End-Architektur zugewandt. XPeng hat sogar entschieden, auf Lidar-Sensoren zu verzichten und sich vollständig auf die reine visuelle Route zu konzentrieren.

Aus Gründen der Systemicherheit und Reife haben XPeng und Huawei in der Anfangsphase eine relativ konservativere "Mehrstufen-End-to-End"-Lösung gewählt, bei der die Module für Wahrnehmung und Planung separat durch Modelle ersetzt werden, anstatt vollständig miteinander verbunden zu werden. In der von XPeng vorgestellten XBrain-Architektur wird die Wahrnehmung von einem Xnet-Netzwerk angetrieben, das auf der BEV+Transformer-Architektur basiert, während das XPlanner-Modell für die Planung zuständig ist. Erst Mitte 2024 hat XPeng angekündigt, alle Fahrzeuge mit der Fuyao-Architektur auf ein "Ein-Stufen-End-to-End"-System zu aktualisieren.

Das ADS 2.0 von Huawei verwendet ebenfalls eine Zwei-Stufen-End-to-End-Lösung (BEV-Wahrnehmung + PDP-Vorhersage- und Planung) und hat 2024 angekündigt, in der ADS 3.0 auf eine "End-to-End"-Architektur zu upgraden, indem das BEV-Netzwerk entfernt und das GOD-Netzwerk für die Wahrnehmung und das PDP-Netzwerk für die Vorentscheidungsplanung eingesetzt wird. Ein leitender Angestellter in der Branche hat jedoch Ende dieses Jahres gegenüber "Yunjian Insight" darauf hingewiesen, dass die Technologie von Huawei im Wesentlichen immer noch eine Mehrstufenlösung ist.

Ein Techniker in der Branche des autonomen Fahrens hat die Herausforderungen benannt: Die frühen chinesischen Hersteller hatten nur begrenzte Kenntnisse über Modelle, und die Mehrstufen-Entwurf erleichtert die Sicherheitsgewährleistung. Bei traditionellen Systemen können Ingenieure Probleme durch das Ändern von Code beheben. Ein End-to-End-Modell ist jedoch ein "Black Box", das zwar ein höheres Potenzial hat, aber auch ein niedrigeres Minimum. "Wenn etwas schief geht, weiß man nicht einmal, wie man es reparieren kann."

NIO hat den Wechsel zur End-to-End-Technologie mit einer Anpassung der Organisationsstruktur kombiniert. Im Juni 2024 hat NIO angekündigt, die Teams für Wahrnehmung und Planung in ein großes Modellteam zusammenzuführen, um die Entwicklung von End-to-End-Technologien voranzutreiben. Ein halbes Jahr später hat Ren Shaoqing das Department übernommen. Im Januar 2025 wurde das intelligente System Banyan 3.1.0 auf Basis der End-to-End-Architektur offiziell ausgerollt.

Li Auto hat 2024 ein "End-to-End + VLM"-Zweisystemkonzept vorgestellt. Das End-to-End-Modell ist für das "schnelle Denken" zuständig und kann die meisten alltäglichen Szenarien bewältigen, während das VLM-Modell für das "tiefe Denken" eingesetzt wird, um komplexe und ungewöhnliche Situationen zu bewältigen.

Horizon Robotics, ein Anbieter von Chips und Lösungen für intelligentes Fahren, hat bereits früher ein ähnliches Konzept vorgeschlagen und im April dieses Jahres die HSD-Lösung auf Basis des Journey 6P-Chips vorgestellt, die eine Ein-Stufen-End-to-End + VLM-Architektur verwendet. Diese Lösung soll im November dieses Jahres in Serie in den Chery Xingjiyuan ET5 gehen.

Bei einer Pressekonferenz im September hat Lü Peng, Vizepräsident von Horizon Robotics und Leiter der Strategieabteilung sowie der Produktplanung und des Marktes für intelligentes Fahren, die Entwicklung der End-to-End-Systeme in drei Generationen unterteilt:

Erste Generation: Zwei-Stufen-End-to-End. Die Module für Wahrnehmung und Planung verarbeiten die Informationen für die Quer- und Längsbewegung des Fahrzeugs separat und fügen die Aufgaben dann zusammen. Das Gesamterlebnis ist eher fragmentiert.

Zweite Generation: Ein-Stufen-End-to-End + starke Nachbearbeitung. Die von einem End-to-End-System direkt ausgegebenen Fahrbahntrajektorien haben viele Mängel. Deshalb müssen die Informationen für die Quer- und Längsbewegung später mit Regeln korrigiert und dann kombiniert werden.

Dritte Generation: Vollständiges End-to-End. Die Wahrnehmungsinformationen werden eingegeben, und eine Fahrbahntrajektorie wird ausgegeben. Im Vergleich zu den ersten beiden Generationen ist die Reaktionszeit kürzer, der Informationsverlust geringer, die Koordination zwischen Quer- und Längsbewegung besser, und das Fahrerlebnis ist am menschlichsten.

Bei einer Pressekonferenz im April hat Yu Kai, CEO von Horizon Robotics, eingeräumt, dass es zwar viele Ankündigungen über führende Lösungen gibt, aber es bisher in China noch kein echtes Ein-Stufen-End-to-End-System gibt.

Autonomes Fahrzeug als "rädergestütztes" Robot

Vor der Einführung von End-to-End-Technologien hat die Branche des autonomen Fahrens hauptsächlich von Tesla gelernt. Da Tesla jedoch keine technischen Details mehr preisgibt, müssen die neuen chinesischen Hersteller nun gleichzeitig jagen und suchen. Die aufstrebenden Branchen der generativen KI und der humanoiden Roboter haben ihnen neue Inspirationen gegeben.

Im Jahr 2023 hat der Erfolg von ChatGPT die Fähigkeit eines einzelnen großen neuronalen Netzwerks bewiesen, komplexe multimodale Aufgaben zu bewältigen. Der Übergang von der Imitationslernmethode zur Verstärkungslernmethode hat sich auch auf die Branche des autonomen Fahrens übertragen. Forschungsergebnisse aus dem Bereich der Robotik, wie VLA (Visual-Language-Action, visuell-sprachlich-handlungsfähiges Modell) und Weltmodelle, werden nun auch in das autonome Fahren integriert.

VLA wurde ursprünglich entwickelt, um es Robotern zu ermöglichen, menschliche Sprachbefehle zu verstehen und Aktionen auszuführen. Im Jahr 2023 hat Google DeepMind das RT2-Modell (Robotic Transformer 2) veröffentlicht, das eine große Menge an Bildern, Texten und Roboteraktionsdaten zusammen trainiert hat, um ein VLA-Modell zu erstellen. Anschließend ist das OpenVLA, ein Open-Source-Modell, entstanden, das die Forschung an VLA erheblich erleichtert.

Autonome Fahrzeuge werden oft als "rädergestützte Roboter" betrachtet, die durch das Verstehen von Karten, Navigation und menschlichen Sprachbefehlen das Lenkrad, das Gaspedal und die Bremse steuern können. Die End-to-End-Systemarchitektur von Tesla wird als eine Anwendung des VLA-Konzepts angesehen.

DeepRoute.ai, ein chinesischer Anbieter von Technologien für intelligentes Fahren, war das erste Unternehmen, das öffentlich angekündigt hat, VLA-Technologie in das autonome Fahren zu integrieren. Schon im September 2023 hat DeepRoute.ai die Entwicklung eines End-to-End-Modells für die "einstufige Wahrnehmung und Entscheidung" angekündigt und es im April 2024 offiziell als VLA benannt. Die Serienproduktion soll in diesem Jahr erfolgen.

Aber der Markt entwickelt sich schnell. Im März dieses Jahres hat Li Auto plötzlich angekündigt, sein Zwei-System-Konzept auf eine VLA-Lösung umzustellen und hat vor den Konkurrenten im August dieses Jahres die Serienproduktion im Li Auto i8 gestartet.

XPeng plant, seine VLA-Lösung im dritten Quartal dieses Jahres auszurollen, einige Monate später als die Konkurrenten. Aber im Fahrzeug (Ultra-Version) wird eine Rechenleistung von 2200 Tops bereitgestellt, von denen etwa 1200 Tops für das Assistentenfahren reserviert sind. Im gleichen Zeitraum hat das AD Max von Li Auto eine Rechenleistung von 700 Tops, und der NIO Shenji NX9031-Chip hat eine Rechenleistung von 1000 Tops. He Xiaopeng, CEO von XPeng, prognostiziert, dass die Rechenleistung der nächsten Hardwareplattform AI 5 von Tesla zwischen 2000 und 4000 Tops liegen wird.

Dieser Wettlauf um die Rechenleistung hat sich auch in die Cloud ausgeweitet. Tesla hat 2019 die Erstellung des Dojo-Rechenclusters angekündigt und 2024 begonnen, Chips von Nvidia und Samsung in großen Mengen zu beschaffen. Im Jahr 2025 plant Tesla, insgesamt 85.000 Nvidia H100-Chips zu beschaffen. XPeng und Li Auto haben auch ihre Investitionen in die Cloudrechenleistung erhöht. XPeng hat angegeben, dass seine Cloudrechenleistung 10 EFlops beträgt, während Li Auto behauptet, dass seine Cloudrechenleistung über 13 EFlops liegt.

Beide Unternehmen verwenden die Cloudrechenleistung, um Basis-Modelle mit einer größeren Anzahl von Parametern zu entwickeln. Der Erfolg von DeepSeek hat den Automobilherstellern die Möglichkeit gezeigt, Basis-Modelle mit kontrollierbaren Kosten eigenständig zu entwickeln. Das Basis-Modell von Li Auto wurde zunächst für das intelligente Cockpit und die Mobil-App entwickelt und wird nun auch für das autonome Fahren eingesetzt. Der Leiter der Entwicklung des Basis-Modells von Li Auto ist Chen Wei, der Leiter der KI-Einheit für den intelligenten Raum.

Bei XPeng ist Liu Xianming, der derzeit der Leiter des Autonomes Fahren-Zentrums 1 ist, für die Entwicklung des Basis-Modells verantwortlich. Bei einer Pressekonferenz im Mai dieses Jahres hat Liu Xianming angegeben, dass das Basis-Modell von XPeng 72 Milliarden Parameter hat, 35-mal mehr als die gängigen VLA-Modelle. Später wird ein kleineres Modell (XVLA) durch Nach-Training, Verstärkungslernen und Modell-Distillation erstellt und im Fahrzeug eingesetzt. Ein VLM-Modell auf Basis desselben Basis-Modells wird ebenfalls in diesem Jahr im Ultra-Version des intelligenten Cockpits eingesetzt.

Weltmodelle: Von der Simulation zur Fahrzeugsteuerung

Außer VLA haben Li Auto und Huawei einen anderen Weg gewählt: Sie setzen direkt auf Weltmodelle für die Echtzeitsteuerung im Fahrzeug. Bisher wurden Weltmodelle hauptsächlich für die Datengenerierung und die Simulationspr