In der intelligenten Fahrerei-Szene wartet jeder auf He Xiaopeng.
„Wenn ich die aktuellen Konkurrenten weit hinter mir lassen möchte, wie sollten wir mit der aktuellen Generation der autonomen Fahrtechnik vorgehen?“
Die Zeit kehrte zwei Jahre in die Vergangenheit zurück. In XPengs Büro im Silicon Valley in den USA fragte He Xiaopeng Liu Xianming fast nur diese eine Frage, als sie sich trafen.
Diese Frage war von entscheidender Bedeutung.
Liu Xianmings Antwort war, die Sprach-VLA zu entfernen. In einer Stunde des Austauschs fühlte Liu Xianming, dass dies keine normale Bewerbungsgespräch war, und es war auch nicht nötig, den Chef davon zu überzeugen, ein neues Technologiekonzept zu akzeptieren. Stattdessen begannen die beiden Personen, die konkreten Schritte für die Umsetzung dieses Projekts zu besprechen.
Nachdem Liu Xianming aus He Xiaopengs Büro herausgekommen war, hatte er nur einen Gedanken: „Dies ist ein Ort, an dem ich unbedingt sein muss.“
Liu Xianming war bereits der vierte leitende Mitarbeiter bei XPeng in den letzten zehn Jahren der Eigenentwicklung der autonomen Fahrtechnik.
Wu Xinzhou erreichte das „generationsübergreifende Vorsprung“ bei XPengs autonomen Fahrtechnik; Li Liyun absolvierte die Transformation von der Regelzeit bis hin zu einem end-to-end-System bei XPeng. Aber in dieser Phase überholten viele Mitbewerber schnell dank end-to-end-Systemen.
Offensichtlich hatte XPeng nicht vorausgesehen, wie schnell die anderen Mitbewerber folgen würden.
Als XPeng sein 1.000.000. Fahrzeug von der Fertigungsstraße nahm, gab es eine Stimme in der Öffentlichkeit: XPengs Verkaufszahlen sind von der Intensivstation in die Partyzone gegangen, aber die autonome Fahrtechnik wird von „Li Auto, Huawei und anderen“ verfolgt und sogar in die Kritik geraten, dass es auf alten Erfolgen ruht.
Die Schwankungen von XPengs autonomen Fahrtechnik ähneln stark der Geschichte des Durchbruchs der neuen chinesischen Automobilhersteller in der autonomen Fahrtechnik. Alle drehen sich um das Wettkampf um drei Fähigkeiten: System, Serienproduktion und Algorithmen.
Aber gleichzeitig hat es auch seine Besonderheiten.
Innerhalb von acht Jahren wechselte XPeng dreimal den Leiter, was eine weitere Tiefe birgt:
Der echte Krieg um die autonome Fahrtechnik ist nicht der momentane technologische Abstand, sondern die Bekämpfung der Organisationsinertie.
Die Zeit ändert sich, die Architektur ändert sich, und auch die führenden Personen müssen sich ändern.
Wenn man sich umschaut, sind es nur wenige Automobilhersteller, die es wagen, sich bei der autonomen Fahrtechnik wiederholt einer Selbstrevolution zu stellen.
Diese Selbstrevolution bedeutet nicht, dass man im end-to-end-Zeitalter alles umwerfen muss, sondern ob man den Mut hat, alles von vorne zu beginnen – hast du den Mut, das Pyramidengebäude, das du in der Vergangenheit mit viel Mühe errichtet hast, abzureißen? Hast du den Mut zuzugeben, dass jeder seine eigene historische Mission hat, und das Gefühl, die Mission zu erfüllen, ist, sich selbst zu besiegen“.
Der Anfang des Problems: Warum muss XPeng die „Konkurrenten“ hinter sich lassen?
Im Jahr 2024 fragte He Xiaopeng die Frage „Wie kann man die Konkurrenten hinter sich lassen“, genau deshalb, weil er früher erkannte, dass XPengs autonome Fahrtechnik nicht mehr „einen Schritt voraus“ ist.
Der Ausgangspunkt dieser Frage stammt aus der Weltanschauung der autonomen Fahrtechnik, die von Wu Xinzhou und Li Liyun etabliert wurde.
Das von Wu Xinzhou errichtete System der autonomen Fahrtechnik bei XPeng war die Spitze der Regelzeit.
Wu Xinzhou, der aus dem Bereich der Systementwicklung kommt, hat ein viel stärkeres Ganzheitsbewusstsein als die meisten Geschäftsführer. Ein Jahr nach seinem Eintritt bei XPeng gründete er die drei Teams für Wahrnehmung, Regelung und Planung sowie die Karte bei XPeng, und half es, die Technologie, das Team und das System von einem Keimstadium bis zu einem generationsübergreifenden Vorsprung zu bringen.
Wesentlicher als das Team war das von Wu Xinzhou entwickelte geschlossene Datenentwicklungssystem für die autonome Fahrtechnik, das XPeng zur Führerin in der Regelzeit machte.
Wenn man die drei technologischen Ansätze in der Branche damals zurückbetrachtet:
Die erste Gruppe: Tesla nutzte HydraNet + Regelbasierte Steuerung. Der Kern lag darin, dass das Wahrnehmungsmodul die Umgebung und Zielobjekte über HydraNet erkannte.
Die zweite Gruppe: Traditionelle Automobilhersteller nutzten die schwarze Kastenlösungen von Zulieferern wie Mobileye und Bosch, die zwar stabil, aber langsam bei der Iteration und nicht intelligent genug waren.
Die dritte Gruppe: Neue Automobilhersteller mit eigener Entwicklung. XPeng nutzte in Xpolit3.0 eine regelbasierte Architektur mit Mehrsensorfusion und entwickelte eigenständig die damals beste Autobahn-NOA (Navigate on Autopilot). In den anschließenden Stadt-NOA-Wettbewerben belegte es die ersten drei Plätze in Bezug auf Geschwindigkeit und Qualität.
Die Versionen Xpolit3.0 und 3.5 waren Wu Xinzhous Meisterwerke.
Aber selbst beim Wechsel von der Autobahn in die Stadt, angesichts der unterschiedlichen Szenarien, war die einzige Möglichkeit, „jeden Vorhersage- und Planungsalgorithmus neu zu schreiben“.
Die von Wu Xinzhou entwickelten Xpilot-Serienversionen bei XPeng entsprachen der Regelzeit der autonomen Fahrtechnik, die hauptsächlich auf einer segmentierten Architektur von Ortung, Wahrnehmung, Entscheidung, Planung und Steuerung basierte.
Der einzige Unterschied war, dass Wu Xinzhou frühzeitig bewußt war, die Fahrzeugdaten in einen Motor für die schnelle Iteration der Algorithmen zu verwandeln. XPeng war auch ein Mitbewerber, der in der Regelzeit eine ähnliche Dateniterationsfähigkeit wie Tesla hatte.
Sein Nachfolger Li Liyun bewahrte die Zeit vor dem end-to-end-System bei XPeng.
Im Vorfeld des end-to-end-Zeitalters mussten zwei Schwellen genommen werden: die end-to-end-Wahrnehmung und die Modellierung der Entscheidungsplanung.
Das erste zerlegte die Architektur der autonomen Fahrweise in zwei Module: Wahrnehmung und Vorhersage-Entscheidungsplanung. Das zweite integrierte die Funktionen der Vorhersage, Entscheidung und Planung in ein und dasselbe neuronale Netzwerk.
Li Liyun leitete die Umstellung von XPengs Xpolit-Architektur auf XNGP+ und bewahrte die Serienproduktion. Er absolvierte die beiden Phasen der „Vorfeld des end-to-end-Systems“.
Die unterliegende Architektur von XNGP+ ist bereits ein erster end-to-end-Großmodell, das aus dem Wahrnehmungsneuronalen Netzwerk XNet, dem Regelungs-Großmodell XPlanner und dem KI-Großsprachenmodell XBrain besteht. Dies ist ein typisches Beispiel für die Modellierung der Entscheidungsplanung.
Nachdem die Branche der autonomen Fahrtechnik Ende 2024 in die „Nachfolge-End-to-End-Zeit“ eintrat, gab es viele Mitbewerber, die sich mit einem einstufigen end-to-end-System und der VLA-Architektur wiederherstellten.
Bei den Städtegründungs-Kämpfen hielten sich Huawei und Li Auto schnell an. Später, als XPeng ein end-to-end-System einführte, sprach man von One model. Als XPeng VLA einführte, war man plötzlich von VLA umgeben. Man sah, dass alle in der ersten Liga waren.
Wu Xinzhou baute eine Stadt auf, und Li Liyun verteidigte sie.
Aber die Organisationsinertie, die sich um die Regelzeit drehte, und das Pyramidengebäude, das auf Regeln beruhte, wurden stattdessen zu einer Last.
Für ein perfektes end-to-end-System muss man zunächst die Hälfte der Stadt zerstören, um eine neue Stadt zu errichten. Erfolg kann zum Fluch werden, und XPeng ist auch nicht davor gefeit.
Beide konnten He Xiaopengs Frage nicht beantworten.
Der Zustand, auf Augenhöhe mit anderen Mitbewerbern zu sein, war für He Xiaopeng unerträglich.
Das Entfernen der Sprache in der VLA wurde zur Wasserscheide für XPengs autonome Fahrtechnik
In der Nachfolge-End-to-End-Zeit fand Liu Xianming die Antwort:
– „Wenn ich die aktuellen Konkurrenten weit hinter mir lassen möchte, wie sollten wir mit der aktuellen Generation der autonomen Fahrtechnik vorgehen?“
– Die „Sprache“ in der VLA entfernen.
Die VLA-Architektur (Vision-Language-Action, also Sicht-Sprache-Handlung) ist eine typische end-to-end-Architektur. Sie ändert die modulare Verarbeitungsweise der autonomen Fahrweise in der Regelzeit. Die VLA wandelt die Sensordaten in Sprache und Symbole um und bildet dann durch Inferenz Entscheidungen, die an das Fahrzeug weitergeleitet werden.
Im Vergleich zu einem zweistufigen end-to-end-System hat es eine bessere Verständnisfähigkeit und nachvollziehbare Inferenzspuren, wodurch das Problem der schwarzen Kiste vermieden wird.
Liu Xianming leitete die „zweite Revolution“ der VLA bei XPeng.
- VLA1.0: Sicht – Sprache – Handlung. Dies erfordert zwei Sprachübersetzungen. Zuerst werden Sicht und Sprache eingegeben, dann wird Sprache ausgegeben, und schließlich wird die Sprache in Bahnpunkte (gopoint) oder Handlungen (action) umgewandelt und in das end-to-end-Modell eingegeben, um Entscheidungen zu treffen.
- VLA2.0: Sicht + Sprache – Handlung. Die Sprachbarriere wurde entfernt. Nach der Inferenz, bei der Sprache und Sicht als Informationen eingegeben werden, werden direkt Handlungen und das endgültige Ergebnis ausgegeben.
Die wesentlichste Änderung war die Entfernung des Zwischenschritts der „Übersetzung der Sensorsignale in Sprach-Tokens“. Die Inferenztätigkeit wechselte von einem LLM-Großsprachenmodell zu einem multimodalen Transformer-Großmodell.
Es gibt zwei Gründe dafür:
Erstens, die Lösung des Problems des Informationsverlusts in der traditionellen VLA.
Die traditionelle VLA erfordert zwei Sprachübersetzungen. Die Umwandlung von diskreten strukturierten Daten in kontinuierliche Signale führt zu einem großen Verlust von Informationen aus der physischen Welt. Die zweite Generation der VLA nutzt mehr kontinuierliche Signale, um Aufgaben zu erfüllen, und das Netzwerk ist äußerst einfach.
Zweitens, die Lösung des Problems der begrenzten Ausgabe der traditionellen VLA und die Verbesserung der Effizienz und der Generalisierungsfähigkeit des Modells.
Sprache ist diskret, während Steuersignale (Fahrzeuglenkung, Beschleunigung) kontinuierliche Größen sind. Die traditionelle VLA hat Schwierigkeiten, physikalische Systeme präzise zu steuern, was die Leistung des Modells in komplexen Szenarien einschränkt. Die zweite Generation der VLA entfernt den Sprachübersetzungsschritt, wodurch die Trainingsmethode vereinfacht wird und direkt Handlungen in der physischen Welt ausgegeben werden können.
Beispielsweise kann XPengs Super LCC ohne jegliche Navigation oder Textbefehle im Betriebsgebiet umherfahren. Auch macht diese Methode die Selbstüberwachung möglich. Wenn XPeng die globale autonome Fahrweise vorantreibt, kann es ohne Datenbeschriftung generalisiert trainieren.
Interessanterweise hat die zweite Generation von XPeng Ähnlichkeiten mit Teslas FSD V14.
Der Kern von FSD V14 ist auch ein multimodales Modell. Zuerst werden die fusionierten Informationen aus Sicht, Navigationskarte, Ton und Zustand des eigenen Fahrzeugs eingegeben. Nach der Inferenz wird ein gemeinsames Ergebnis ausgegeben, und schließlich wird eine Fahrentscheidung getroffen.
Diese multimodalen Signale erzeugen einerseits Sprache als Zwischenrepräsentation und andererseits Signale wie Panoramasegmentierung, 3D-Besetzung, 3D-Gaußsche Repräsentation, die gemeinsam die ausgegebene Handlung bestimmen.
In der Cloud haben sowohl XPeng als auch Tesla ein „ähnliches Weltmodell“, und ihre Funktionen sind auch identisch.
Dieses Weltmodell hat sich von einem früheren intelligenten Generieren von Umgebungszenarien zu einem Prädiktionssystem entwickelt, das Entscheidungen vorstellen und deren Qualität bewerten kann.
XPengs Weltmodell heißt Welt-Simulator. Wenn V und L Bahnen und Entscheidungen ausgeben, werden sie in das Weltmodell aufgenommen, und das Weltmodell wird mit VLA-Daten trainiert. Die wichtigste