Wer klopft an die Tür von Level 3? Wohin geht die neue Dekade des intelligenten Assistenzzusatzfahrens?
Bei der Entstehung jeder Technologie gibt es immer Debatten über die Entwicklungspfade, und die Technologie des intelligenten Fahrerassistenzsystems ist da keine Ausnahme.
Soll man sich für einen schrittweisen Ansatz von Level 2 bis Level 4 entscheiden oder lieber einen Sprung zum Ziel Level 4 wagen? Soll man sich der rein visuellen Technologiepfade mit ihrer maximalen Vereinfachung anschließen oder sich auf die Redundanzsicherheit der Multi-Sensor-Fusion verlassen? Wie kann man die Vereinheitlichung der Branchenstandards mit der Individualisierung der Automobilhersteller ausbalancieren? Wohin wird das Spiel zwischen vertikaler Integration und offenen Allianzen gehen?
Diese ungelösten Fragen beweisen gerade die starke Vitalität der technologischen Innovation. Durch kontinuierliche Exploration und praktische Verifikation wird das zukünftige Evolutionsschema des intelligenten Fahrerassistenzsystems immer deutlicher.
Steigerung der Rechenleistung in einer dreistufigen Architektur
In den letzten zehn Jahren hat die Rechenleistung des intelligenten Fahrerassistenzsystems einen Sprung von der quantitativen zur qualitativen Veränderung gemacht. Die Kernstütze dafür ist die tiefgreifende Umsetzung der dreistufigen Architektur "Cloud-Training - Edge-Inferenz - Fahrzeug-Endausführung". Durch die Migration der Rechenlast vom ressourcenbeschränkten Fahrzeugendgerät zur Cloud wird das Potenzial für exponentielles Wachstum der Rechenleistung freigesetzt.
Die Cloud als "Superhirn" des intelligenten Fahrerassistenzsystems ist zum Kernträger für das Modelltraining, die Daten-Schließungsschleife und die Algorithmus-Iteration geworden. Im Bereich des End-to-End-Modelltrainings und der Erforschung von Corner-Case-Szenarien bestimmt die Größe der Cloud-Rechenleistung direkt die Evolutionsgeschwindigkeit des intelligenten Fahrerassistenzsystems.
Global hat die Cloud-Rechenleistung von Tesla die Marke von 88,5 EFLOPS überschritten. In China führt das Xingrui Computing Center von Geely mit 23,5 EFLOPS an, Huawei hat die 10 EFLOPS überschritten, Li Auto und Xiaomi haben beide 8,1 EFLOPS erreicht, und XPeng plant, seine Cloud-Rechenleistung von 2,51 EFLOPS im Jahr 2025 auf 10 EFLOPS zu steigern, um eine stärkeres Trainingsfundament aufzubauen.
Das Fahrzeugendgerät als "Edge-Endgerät" für Echtzeitentscheidungen schlägt mit exponentieller Wachstumsrate auf die Tausend-TOPS-Marke zu. Level-2-Aufgaben wie automatischer Einparkvorgang und City-NOA erfordern mehrere zehn bis mehrere hundert TOPS, während Level 3 und höher die 1000-TOPS-Schwelle überschreiten müssen, um die Anforderungen an die Echtzeit-Inferenz des End-to-End-Modells zu erfüllen.
In der aktuellen Chip-Matrix steht der Thor-X-Super-Chip von NVIDIA kurz vor dem Start, und seine 2000-TOPS-Rechenleistung wird den Leistungsstandard neu definieren. Der NX9031 von NIO hat bereits die 1000-TOPS-Marke erreicht, der Turing-Chip von XPeng folgt mit 750 TOPS, und die Ascend 910 von Huawei und der J6P von Horizon Robotics bilden mit 512 TOPS bzw. 560 TOPS eine Mittelklasse-Rechenleistungsschranke.
In den beliebten intelligenten Fahrerassistenzlösungen erreicht das Fahrzeugendgerät von NIO Pilot eine Rechenleistung von 1016 TOPS. Das FSD von Tesla folgt mit 720 TOPS. XPeng XNGP, Li AD PRO, Xiaomi Xiaomi Pilot Max, BYD Tian Shen Zhi Yan A und Zeekr Qian Li Hao Han H7 haben ähnliche Leistungen von jeweils 508 TOPS. Im Vergleich dazu ist die Fahrzeugendgeräte-Rechenleistung von Huawei ADS3.0 etwas schwächer, bei etwa 200 TOPS.
Die Edge-Rechenleistung als "Nervenknoten" der Fahrzeug-Cloud-Kooperation hat die wichtige Aufgabe der Echtzeitkoordination der Daten zwischen Fahrzeugendgerät, Straßenrand und Cloud. Der Standardisierungsprozess hat einen direkten Einfluss auf die Umsetzungseffizienz von Level-3-Intelligentem Fahrerassistenzsystem und höher. Durch die Verbesserung der Genauigkeit der lokalen Umgebungsperzeption und der Reaktionsgeschwindigkeit auf Verkehrsoptimierungen wird die Edge-Rechenleistung zum unverzichtbaren technologischen Fundament für hochwertige intelligente Fahrerassistenzsysteme.
Hochwertige intelligente Fahrerassistenz rückt der "Technologiegerechtigkeit" entgegen
Das intelligente Fahrerassistenzsystem in China bricht ständig entlang der Skala der Szenarienkomplexität durch: Vom automatischen Spurwechsel und der Fahrt auf Rampen auf strukturierten Straßen mit dem Highway-NOA, bis hin zur Bewältigung von komplexen Stadt-Szenarien wie der Erkennung von Verkehrsampeln und linksabbiegungen ohne Schutz durch das City-NOA. Schließlich wird die vollständige Verbindung von Parkplatz zu Parkplatz (Door to Door, D2D) erreicht, und ein ganzheitliches intelligentes Fahrerassistenzsystem für "Tiefgarage - Stadtgebiet - Autobahn" aufgebaut, das auch End-Szenarien wie automatische Ladung und Parken auf verschiedenen Stockwerken integriert.
Dieser Evolutionsverlauf markiert nicht nur einen grundlegenden Wandel des technologischen Paradigmas von "Regelgesteuert" zu "Datengetrieben", sondern auch einen Wertsprung der hochwertigen intelligenten Fahrerassistenz von "assistiertem Fahrerassistenzsystem in bestimmten Szenarien" zu "ganzheitlicher intelligenter Fähigkeitsverleihung für die gesamte Reise". Der Kernantrieb dafür liegt in der dreifachen kooperativen Durchbrechung von Algorithmen, Daten und Rechenleistung.
An der Rechenleistungseite wird durch die dreistufige Architektur ein Sprung in der Größenordnung erreicht. An der Datenseite wird der Engpass der seltenen Szenarien durch die Doppeltantrieb von realen und synthetischen Daten überwunden. An der Algorithmusseite entwickelt sich von "Regelengine + Modulstapel" zu "Datenengine + End-to-End-Integration", um die gesamte Kette "Perzeption - Entscheidung - Steuerung" zu optimieren.
Im Jahr 2025 beschleunigt sich der Trend zur "Technologiegerechtigkeit" der hochwertigen intelligenten Fahrerassistenz deutlich. BYD bringt die Highway-NOA-Funktion auf Fahrzeuge ab 80.000 Yuan herunter, XPeng erweitert die Reichweite des City-NOA auf den Marktsegment von 150.000 Yuan, und die anderen führenden Automobilhersteller setzen auch die City-NOA-Funktion auf Fahrzeuge im Bereich von 100.000 bis 200.000 Yuan herunter. Die Technologiegerechtigkeit der hochwertigen intelligenten Fahrerassistenz wird immer deutlicher.
Die Verwirklichung der Technologiegerechtigkeit der hochwertigen intelligenten Fahrerassistenz ist das Ergebnis der dreifachen Kraft von Softwareeffizienzsteigerung, Hardwarekostensenkung und Massenproduktion. Durch den Antrieb der Technologiegerechtigkeit wächst der Marktanteil und die Penetrationsrate der Level-2- und Level-2+-Fahrerassistenzsysteme sprunghaft. Es wird erwartet, dass die Penetrationsrate von Level 2+ von 8 % im Jahr 2024 auf 15 % im Jahr 2025 steigen wird. Der Markt für hochwertige intelligente Fahrerassistenzsysteme in Pkw steht vor einer Phase des sprunghaften Wachstums.
Daten-Schließungsschleife fördert die "Kostensenkung" der Technologieanwendung
Derzeit befindet sich das intelligente Fahrerassistenzsystem in einem Paradigmenwechsel von "Hardware-Überdimensionierung" zu "Algorithmusdefinierter Perzeption", und die Daten-Schließungsschleifen-Ökosystem wird zum Kernträger dieses Wandels. Sobald die Multi-Modal-Sensoren am Fahrzeugendgerät aktiviert werden und Daten sammeln, beginnt das Ganze wie eine "Datenmaschine" zu funktionieren, die Zahnräder drehen, greifen ineinander und arbeiten kooperativ.
Zunächst wird die Formatstandardisierung der von den Sensoren gesammelten Daten am Fahrzeugendgerät durchgeführt, und die Daten werden über einen Cache vorverarbeitet. Dann werden die Metadaten automatisch anhand von Fahrverhalten, Umgebungsparametern und Echtzeitlabels der Ziele annotiert. Wenn die Labels bestimmte Bedingungen erfüllen, wird ein Ereignisverpackung ausgelöst.
Nachdem die Daten an das Edge-Endgerät übertragen wurden, werden sie von der Regelengine und dem leichtgewichtigen Modell anhand unterschiedlicher Genauigkeiten gefiltert, und schließlich werden hochwertige Daten im Zusammenhang mit dem intelligenten Fahrerassistenzsystem erhalten. Gemäß dem Algorithmus werden diese Daten komprimiert und optimiert und in verschiedenen Ebenen gespeichert. Sie werden dann gemäß ihrer Dringlichkeit in verschiedene Upload-Warteschlangen mit unterschiedlicher Priorität eingeordnet. In diesem Prozess werden die Daten auch anonymisiert, und der Übertragungsprozess wird überwacht, um die höchste Compliance und Sicherheit zu gewährleisten.
Schließlich wird die Daten-Schließungsschleife in der Cloud gebildet. Hier werden die von verschiedenen Quellen stammenden Daten, die vom Edge-Endgerät übertragen wurden, in die Datenbank eingepflegt, die Labels und Indizes erstellt, und sie werden gemäß dem Clustering-Algorithmus automatisch bereinigt, um widersprüchliche Daten zu entfernen.
Als nächstes werden die verbleibenden gültigen Daten durch die 4D-Annotierungswerkzeugkette und die Daten-Synthesewerkzeuge annotiert und verstärkt. Danach werden die Daten nach den Schritten des verteilten Modelltrainings, der Simulationsverifikation und -bereitstellung, der Wertbewertung und der Compliance-Prüfung die Schließungsschleife und die Iteration abschließen.
Mit der ständigen Steigerung der Edge- und Cloud-Rechenleistung wird die tiefe Fusion von realen und synthetischen Daten zu einem Schlüsselweg zur Durchbrechung der hochwertigen automatisierten Fahrerassistenz. Die Reife der dynamischen Daten-Destillations-Technologie und des Multi-Modal-Feature-Ausrichtungs-Algorithmus verringert allmählich die Abhängigkeit des Systems von Hardware-Überdimensionierung, und die Generalisierungsfähigkeit der Szenarien wird deutlich verbessert.
Dieser Trend treibt direkt die strukturelle Senkung der Kosten der Kernperzeptionskomponenten voran. Im vergangenen Jahr ist der Durchschnittspreis von Lidar-Sensoren von 2500 Yuan auf 1200 Yuan gefallen, was einer Senkung von 52 % entspricht. Die Preise von Millimeterwellenradar, Fahrzeugkameras und Ultraschallradar haben zwischen 25 % und 31 % gesunken, was die Kostenbarrieren für die Massenumsetzung der hochwertigen intelligenten Fahrerassistenz beseitigt.
Die Positionsbestimmungstechnologie entwickelt sich ebenfalls weiter. Von der traditionellen Methode, die auf der Lidar-Punktwolkenanpassung und der hochpräzisen Karte angewiesen ist, geht es in eine neue Phase ohne Karte und mit End-to-End-Modellen.
Durch die Fusion mehrerer Kameras zur Erzeugung einer Vogelperspektive wird die Kosten für die Kartenerhaltung erheblich gesenkt. Die in der Cloud erstellte Simulationsumgebung, die auf einer großen Menge von Fahrzeugendgerät-Daten basiert, stärkt kontinuierlich die Generalisierungsfähigkeit des Modells für dynamische Szenarien. Die Erhöhung des Gewichts der visuellen Wahrnehmung schwächt weiter die Abhängigkeit von teuren Hardwarekomponenten wie Lidar-Sensoren.
Langfristig gesehen sind die Modellierung ohne Karte und das End-to-End-Modell nur Übergangsformen. Wenn die Kooperation zwischen Fahrzeug, Straße und Cloud und das selbstevolvierende Lernen zum Kern der Technologie werden und die Chip-Integration einen Durchbruch erzielt, wird die globale dynamische Positionsbestimmung auf der Grundlage von Ambient Intelligence und generativer KI die Endform werden.
Der Sprung von "Modular" zu "End-to-End"
Der Algorithmus des intelligenten Fahrerassistenzsystems durchläuft eine revolutionäre Entwicklung von der modularen Stapelung zu der End-to-End-Integration, und die Architekturinnovation wird zum Kernmotor der technologischen Durchbrechung.
Die End-to-End (E2E)-Architektur nutzt ein einzelnes neuronales Netzwerk, um die gesamte Rechenkette "Perzeption - Entscheidung - Steuerung" durchzuführen und direkt die Steuerbefehle für das Fahrzeug auszugeben. Sie benötigt keine manuelle Regelintervention und kann durch das Training mit einer großen Menge von Daten einer menschlichen intuitiven Entscheidung annähern. Die Reaktionsleistung und die Anpassungsfähigkeit an komplexe Betriebsbedingungen werden deutlich verbessert. Allerdings ist die Generalisierungsfähigkeit des Systems von der Schwellenwert der Datenmenge der Automobilhersteller abhängig.
Um diese Beschränkung zu überwinden, ist das Visual-Language-Modell (VLM) als ein Verstärkungsmodul entstanden. Es kombiniert die Fähigkeiten der visuellen Wahrnehmung und des Verständnisses natürlicher Sprache, analysiert komplexe Verkehrssemantik und generiert Entscheidungen durch kettenförmiges Schließen. Zusammen mit der End-to-End-Architektur bildet es ein "schnell-langsam-kooperatives" Entscheidungs-System, um die Sicherheit in seltenen Szenarien und Corner-Cases zu verbessern.
Aber das VLM verbraucht viel Rechenleistung und kann nicht so schnell wie die End-to-End-Architektur eine intuitive Entscheidung treffen. Darüber hinaus erhöht seine starke Abhängigkeit von hochpräzisen Karten die Kosten für die Kartenerhaltung und mindert die Generalisierungsfähigkeit.
Deshalb haben die Entwickler des intelligenten Fahrerassistenzalgorithmus einen Schritt weiter gegangen und ein leistungsstärkeres technologisches Kombinationssystem - das Visual-Language-Action-Modell (VLA) - entwickelt, das auf der "VLM + End-to-End"-Architektur basiert.
Das VLA ist eine Weiterentwicklung des VLM. Es kombiniert die Aktionsmodus, um ein einheitliches "Visual - Sprache - Aktion"-Modell zu bilden und die End-to-End-Schließungsschleife für "Perzeption - Entscheidung - Ausführung" zu vollenden.