NIO schließt die „Lektion für intelligentes Fahren“ ab. Ren Shaoqing resümiert: Technologische Innovationen im Bereich des intelligenten Fahrens werden den Wettbewerb neu gestalten.
Text | Xiao Man
Redaktion | Li Qin
Am 18. Juni hat NIO die neueste Version des Weltmodells gleichzeitig an Fahrzeuge beider Generationen (einschließlich 8 Fahrzeugen auf NT2.0-Plattform, 4 Fahrzeugen auf NT2.5-Plattform und 6 Fahrzeugen auf NT3.0-Plattform) gepusht. Dies bedeutet, dass NIO jetzt denselben komplizierten Code für intelligentes Fahren auf Chips unterschiedlicher Generationen laufen lassen kann.
Dass die Software-Update-Rhythmik von der Hardware abhängt, war einst ein Problem, das die Branche plagte. Viele Automobilhersteller konnten dieselbe Software nicht auf Fahrzeugen unterschiedlicher Versionen und Ausstattungen aktualisieren. Dies hatte zur Folge, dass lange Zeit nur Fahrzeuge mit der neuesten Hardware die beste Software nutzen konnten, und die alten Kunden wurden benachteiligt.
NIOs Implementierung der plattformübergreifenden Kompatibilität für Inference
Das Team von Ren Shaoqing hat sich bereits 2020 Gedanken darüber gemacht, wie dieses Problem gelöst werden kann. NIOs Vorgehensweise besteht darin, eine eigene AI-Infrastruktur (AI Infra) aufzubauen – eine eigenentwickelte Toolchain, um die Kluft zwischen verschiedenen Chips zu überbrücken, einen AI-Compiler, um die Verarbeitungsgeschwindigkeit des Fahrzeugs zu erhöhen, und einen AI-Agenten, um den gesamten Prozess zu automatisieren.
Damals war es noch üblich, Nvidias Tools für die obere Ebene der Implementierung zu verwenden. Aber NIO hat damals beurteilt, dass die technische Architektur der Fahrzeug-Chips weiterhin schnell weiterentwickelt werden würde und die gängige Architektur nur 3 - 5 Jahre haltbar wäre. Basierend auf dieser Einschätzung hat NIO beschlossen, nur die unterste Hardware-Schnittstellenebene (wie CUDA) beizubehalten und darüber hinaus die gesamte obere Ebene der Implementierungssoftware, einschließlich des Inference-Engines und des Implementierungsframeworks, eigenständig zu entwickeln.
Außerdem hat NIO, wie die meisten Automobilhersteller, die eigene Chips entwickeln, auch einen eigenen Compiler entwickelt, um die automatische Optimierung von Operatoren zu ermöglichen. Dadurch wurde die Implementierungszeit von ursprünglich 1 - 2 Wochen auf 1 - 2 Tage verkürzt, und gleichzeitig wurde die Inference-Leistung auf der Fahrzeugseite um mehr als 20 % verbessert.
Ren Shaoqing hat angegeben, dass NIO auch einen automatisierten Arbeitsablauf mit AI-Agenten eingeführt hat, der die mühsamen Prozesse übernahm, die ursprünglich von Ingenieuren lange Zeit am Computer manuell überwacht und schrittweise ausgeführt werden mussten. Dadurch wurde die Zeit für die vollständige Implementierung eines Modells auf einem Fahrzeug von einem Tag oder sogar mehreren Tagen auf weniger als 2 Stunden drastisch reduziert.
Aufbau der Fähigkeiten von NIOs Software für intelligentes Fahren
Die AI-Infrastruktur ermöglicht es, Modelle schnell in Fahrzeugen zu implementieren. Die Fahrzeugseite sammelt in der praktischen Anwendungsumgebung hochwertige Daten und sendet sie zurück zur Weiterentwicklung. Das Algorithmus-Team trainiert mit diesen Daten ein intelligenteres Modell und übergibt es dann erneut an die AI-Infrastruktur-Pipeline, um es in das Fahrzeug zu integrieren, wodurch ein Daten-Closed-Loop entsteht.
Ren Shaoqing sagte direkt: "In der Ära der großen Modelle muss man die Datenmenge um das Zehnfache erhöhen, um die Leistung um drei Prozent zu verbessern; wenn man die Leistung um 18 Prozent verbessern möchte, muss man die Datenmenge um das Sechsmal Zehnfache erhöhen." Das heißt, wenn man nur durch die Erhöhung der Anzahl von Testfahrzeugen und die Bezahlung für die Sammlung von physischen Daten versucht, die Leistung zu verbessern, wird man schnell die physischen Grenzen von Kosten und Skalierung erreichen.
Ren Shaoqing meint, dass "die Essenz der Daten die Rechenleistung ist, das Ergebnis der Ausführung von 'Modell + Rechenleistung'".
NIO führt das neueste noch zu validierende große Modell in Serienfahrzeugen im "Shadow-Modus" aus, ohne die Fahrweise der Benutzer zu beeinflussen, sondern nur die Echtzeit-Simulation durchzuführen. Sobald die Entscheidung des Modells von den tatsächlichen Fahrhandlungen des Menschen abweicht, wird dieser Sonderfall (Corner Case) an die Cloud zurückgesendet.
Dieses Validierungssystem kann über die NT2- und NT3-Plattformen hinweg funktionieren und führt wöchentlich unmerklich über 40 Millionen Kilometer an aktiven Sicherheits-Tests durch, was der Datenmenge entspricht, die 1.000 Testfahrzeuge in einem Jahr an kontinuierlichen Fahrten sammeln würden.
NIOs Daten-Infrastruktur-Engineering
Ren Shaoqing meint, dass diese Sonderfälle, die von der Fahrzeugseite ausgewählt werden, möglicherweise nur 5 % der gesamten Datenmenge ausmachen, aber dennoch einen größeren Trainingswert bieten als die normalen Daten auf der untersten Ebene.
Außerdem erzeugt NIO in der Cloud-Weltmodell absichtlich verschiedene extreme und ungewöhnliche Fallen für die Künstliche Intelligenz, um das neuronale Netzwerk zu zwingen, zu lernen, wie man das Fahrzeug in einem fehlerhaften Zustand wieder auf den richtigen Kurs bringt.
In letzter Zeit hat die Branche allgemein bemerkt, dass die Fähigkeiten von NIOs intelligentem Fahren verbessert wurden. Ren Shaoqing ist der Meinung, dass dies nicht auf eine plötzliche Veränderung eines einzelnen Algorithmus zurückzuführen ist, sondern auf eine neue Erkenntnis des "Entwicklungszyklus der physischen Künstlichen Intelligenz".
Ren Shaoqing teilt die technologische Entwicklung in vier Phasen ein: die erste Phase mit unklaren Zielen, die zweite Phase, in der es möglich ist, die Konkurrenz zu überholen, die dritte Phase, in der die technologischen Wege sich konvergieren und es um die Arbeitskraft geht, und die vierte Phase, in der die Gewinne verschwinden und es um die Details geht.
Aber ab 2023, mit dem Auftauchen der Konzepte der großen Modelle und des Weltmodells, hat Ren Shaoqing beurteilt, dass die Technologie des intelligenten Fahrens wieder in die "zweite Phase" zurückgefallen ist, in der die Innovation auf der untersten Ebene gefördert wird. Deshalb hat NIO vor zwei Jahren entschieden, eine Umstrukturierung des Unternehmens vorzunehmen und das Team für intelligentes Fahren in eine "4x100-Meter-Relaisstaffel" (Vorstudie, Hauptlinie-Lieferung, plattformübergreifende Anpassung, Serienlieferung) umzubauen und die Ressourcen auf die "erste Staffel" der Vorstudie zu konzentrieren.
Die heute von außen sichtbare Verbesserung der Fähigkeiten durch das "Weltmodell und Closed-Loop-Intensivtraining" ist tatsächlich das Ergebnis dieser Umstrukturierung und des Aufbaus der Infrastruktur.
Am 17. Juni hat 36Kr eine Diskussion mit Ren Shaoqing und Mitgliedern seines Teams von NIO im Coworking-Space in Zhongguancun geführt. Der Inhalt wurde bearbeitet:
Frage: Viele Automobilhersteller entwickeln derzeit eigene Hochleistungs-Chips. Warum konnte NIO dies zuerst auf mehreren Plattformen umsetzen?
Ren Shaoqings Team: Tatsächlich haben wir in dem Prozess der Entwicklung und Serienproduktion eigener Chips (Prototyp in 2024, Serienproduktion ab März 2025) eine Menge Arbeit geleistet. Obwohl unsere Konkurrenten auch frühzeitig begonnen haben, hat NIO bereits 2020 auf der Ebene der AI-Infrastruktur begonnen, insbesondere die eigene Entwicklung des Inference-Engines, des Implementierungsframeworks und des AI-Compilers.
Genau aufgrund dieser Erfahrungen seit 2020 war die Effizienz des Engineering-Prozesses bereits auf einem bestimmten Niveau, als unsere eigenen Chips fertig waren. Deshalb konnten wir nach der Rückkehr des Chip-Prototyps schnell die Kompatibilität über verschiedene Chip-Plattformen hinweg erreichen.
Frage: In letzter Zeit hat sich die Bewertung von NIOs intelligentem Fahren verbessert. Warum können die Benutzer jetzt eine deutliche Verbesserung der Version und der Fähigkeiten spüren?
Ren Shaoqing: Die Verbesserung der Fähigkeiten des intelligenten Fahrens beruht auf drei Dingen: neuen Algorithmen, der untersten Hardware und dem untersten Datensystem.
Wenn man fragt, was in den letzten zwei Jahren passiert ist, ist es tatsächlich die Veränderung der Algorithmen-Architektur (z. B. Weltmodell, Closed-Loop-Intensivtraining). Aber hinter diesen Oberflächenphänomenen liegt ein tieferer Grund: Wir haben um 2023 erkannt, dass sich die Entwicklungsphase des intelligenten Fahrens von den vergangenen Jahren unterscheidet.
Was die Leute sehen, ist möglicherweise die Überleitung von der Regel-basierten (Rule-base) Methode zu einer End-to-End- oder Weltmodell-Methode. Aber was wir sehen, ist die Rückkehr und die Umstrukturierung der Entwicklungsphase der physischen Künstlichen Intelligenz. Wir definieren die technologische Entwicklung in vier Phasen:
Um 2020 war das intelligente Fahren bereits in die dritte Phase eingetreten, in der alle um die Anzahl der Mitarbeiter und der Strategien (Tausende von Codezeilen) kämpften. Aber um 2023, mit dem Auftauchen der Technologie der großen Modelle, bin ich der Meinung, dass das intelligente Fahren wieder in die zweite Phase zurückgefallen ist – wir können wieder mit der Innovation auf der untersten Ebene beginnen, um Probleme zu lösen und Unterschiede zu schaffen.
Deshalb haben wir seit damals nicht nur neue Algorithmen entwickelt, sondern auch die Unternehmensstruktur umgebaut. Vor ungefähr zwei Jahren haben wir die Unternehmensstruktur in eine Art "4x100-Meter-Relaisstaffel" umgewandelt: Die erste Staffel ist für die Vorstudie zuständig, die zweite für die Lieferung des Hauptstatus, die dritte für die plattformübergreifende Anpassung und die vierte für die Serienlieferung bestimmter Fahrzeuge.
Da die technologische Entwicklung in die zweite Phase zurückgefallen ist, in der die Innovation gefördert wird, haben wir viel Ressourcen in die "erste Staffel (Vorstudie)" investiert. Wir haben verschiedene Vorstudienteams aufgebaut. Das, was die Leute im Großen und Ganzen sehen, ist das "Weltmodell und Closed-Loop-Intensivtraining", aber auf der mikroskopischen Ebene gibt es viele Innovationen, die die Umsetzung dieser Architekturen unterstützen. Dies ist der grundlegende Grund für die Explosion der Fähigkeiten an diesem Punkt.
Frage: Zurzeit wird hauptsächlich über VLA und Weltmodelle gesprochen. Gibt es einen relativ klaren Trend im Wettbewerb?
Ren Shaoqing: Es ist ganz normal, dass es unterschiedliche Ideen bei den Algorithmen gibt. Dies ist auch der interessanteste Aspekt, wenn die Künstliche Intelligenz in die Ära der AI oder der neuen Technologien eintritt. Wenn alle den gleichen Weg gehen, würde die Welt nicht so schnell voranschreiten.
In den letzten drei Jahren hat sich die Künstliche Intelligenz sehr schnell entwickelt. Ich habe selbst ungefähr seit 2016 mit dem intelligenten Fahren begonnen. Von 2016 bis 2022 hat sich die Entwicklung der Algorithmen für das intelligente Fahren oder der Algorithmen für die physische Welt nur langsam fortschritten. Die größte Veränderung war möglicherweise BEV, und höchstens noch OCC, das war es dann.
Aber ab 2022 ist die gesamte Technologie von sehr sicher zu sehr unsicher geworden, und es gibt verschiedene Chancen. Wir haben das Weltmodell im Juli 2024 veröffentlicht, aber die interne Entwicklung hat bereits im zweiten Halbjahr 2023 begonnen. Damals war die Bezeichnung "Weltmodell" noch nicht so klar, aber unsere Idee war relativ einfach:
Erstens möchten wir, dass dieses Modell in einer vollständig unüberwachten (unsupervised) oder selbstüberwachten (self-supervised) Weise trainiert werden kann, d. h., es ist nicht mehr erforderlich, so viele Daten zu markieren, und einige Daten können auch nicht manuell markiert werden; zweitens möchten wir, dass es in einer multimodalen Mischform, d. h. einem einheitlichen Netzwerk, vorliegen kann.
In den letzten drei Jahren haben wir den Zeitraum der schnellen Veränderung der Künstlichen Intelligenz in der physischen Welt miterlebt. Die Leute sind aus einem Zustand, in dem sie sehr sicher waren und ihre täglichen Aufgaben sich in den letzten drei Jahren kaum verändert hatten, herausgekommen. Zum Beispiel die Leute, die früher Planning-Modelle und Planning-Algorithmen geschrieben haben, haben heute möglicherweise nur einige zusätzliche Szenarien zu bearbeiten. Jetzt sind die gesamte Modell-Architektur, die Trainings-Architektur und die oben erwähnte Daten-Engineering-Architektur in einem integrierten Prozess einer großen Veränderung unterzogen.
Frage: Zurzeit gibt es in der Branche zwei unterschiedliche Methoden zur Anpassung von Modellen. Eine Methode besteht darin, ein kleines Modell mit den gefilterten Daten neu zu trainieren; die zweite Methode besteht darin, ein kleines Modell aus einem trainierten großen Modell zu extrahieren (Distillation). Welche Methode hält NIO für die zukünftige Entwicklungstrend? Und wie sieht die gegenwärtige Vorgehensweise aus?
Ren Shaoqing: Tatsächlich haben sich diese beiden Wege in der Entwicklung verschiedener künstlicher Intelligenzmodelle immer wieder abwechseln lassen. Manchmal ist das Neutraining besser, manchmal ist die Distillation effektiver. Dies hängt von der Größe des Modells und der Trainingsmethode ab. Für uns sind beide Technologiestacks ausgereift, daher bewerten wir bei jedem Modell, welche Methode für das aktuelle Modell die besseren Ergebnisse liefert.
Für das Modell, das derzeit in unserem Fahrzeug läuft, ist die Wahrscheinlichkeit, dass wir die Distillationsmethode anwenden, möglicherweise größer. Aber ich denke, dass diese beiden Methoden im Wesentlichen keine großen Veränderungen an unserem bestehenden Algorithmus-System bewirken werden.
Frage: Hat NIO einige Konkurrenzfahrzeuge getestet, wie z. B. Teslas FSD? Wo liegt die erwartete Position von NIOs Version 2.5 in der Branche?
Ren Shaoqing: Tesla ist in Bezug auf die Datenmenge und die Trainingsressourcen weltweit führend. Ich denke sogar, dass es weitaus größer ist als die chinesischen Unternehmen, und die Rechenleistung ist möglicherweise um eine Größenordnung höher.