Das Ideal setzt erneut auf VLA: "End-to-End"-Modell-Leiter Xia Zhongpu kündigt

Li Auto zeigt eine entschiedenere Einstellung bei der Konzentration auf das VLA-Großmodell.

Text | Li Anqi

Redaktion | Li Qin, Yang Xuan

Automotoren von 36Kr hat exklusiv erfahren, dass Xia Zhongpu, der Leiter des "End-to-End"-Modells für Fahrerassistenzsysteme von Li Auto, in Kürze kündigen wird. Xia Zhongpu hat die Positionsebene 21 und berichtet direkt an Lang Xianpeng, dem stellvertretenden Vorsitzenden für die Entwicklung von Fahrerassistenzsystemen bei Li Auto.

Ein Insider hat angegeben, dass Xia Zhongpu bereits aus dem Projektteam für das neueste Fahrerassistenzsystem VLA von Li Auto ausgetreten ist und seit einigen Wochen nicht an den geschäftlichen Sitzungen teilgenommen hat. Sein zukünftiger Arbeitsplatz ist jedoch noch nicht festgelegt.

Automotoren von 36Kr hat Li Auto offiziell um Bestätigung der obigen Informationen gebeten. Bis zum Zeitpunkt der Veröffentlichung gab es keine offizielle Antwort.

Xia Zhongpu trat 2023 bei Li Auto ein und war hauptsächlich für die Planungs- und Steuerungsmodule des Fahrerassistenzsystems verantwortlich. Zuvor arbeitete Xia Zhongpu in der Apollo-Abteilung von Baidu.

Das technologische Modul, für das Xia Zhongpu verantwortlich war, war der Schlüssel für die Umsetzung des "End-to-End"-Fahrerassistenzsystems von Li Auto. Da das System gute Ergebnisse erzielte, wurde Xia Zhongpu im November 2024 offiziell zum Leiter des "End-to-End"-Modells ernannt, als Li Auto das Fahrerassistenzteam in drei Abteilungen aufteilte: "End-to-End"-Modell, Weltmodell und Serienentwicklung. Er berichtet direkt an Lang Xianpeng.

Innerhalb von zwei Jahren bei Li Auto stieg Xia Zhongpu von P9 (entspricht der neuen Positionsebene 19 bei Li Auto) auf Ebene 21 auf. Eine solche Aufstiegsgeschwindigkeit ist bei Li Auto eher ungewöhnlich.

Dennoch hat ein Insider Automotoren von 36Kr mitgeteilt, dass Xia Zhongpus Abgang möglicherweise mit der Änderung der Technologie-Richtung für Fahrerassistenzsysteme von Li Auto zusammenhängt.

"Xia Zhongpu glaubt, dass es noch Raum für Optimierungen bei der End-to-End-Richtung gibt, aber Li Auto hat sich bereits für die VLA (Vision-Language-Action)-Modell-Richtung entschieden", sagte ein Insider.

Am 7. Mai sagte Li Xiang, CEO von Li Auto, in seinem AI Talk: "VLA ist ein großer Fahrer-Modell, der wie ein menschlicher Fahrer arbeitet." Li Auto hat dafür sogar dreimal mehr Trainingskarten eingesetzt als ursprünglich geplant.

Das Management des Fahrerassistenzteams hat auch mehr Ressourcen. Laut Automotoren von 36Kr hat Lang Xianpeng, der Leiter des Fahrerassistenzsystems von Li Auto, seine Positionsebene auf 24 erhöht. Die VLA-Technologie-Richtung wird von Jia Peng, dem Leiter der technologischen Entwicklung für Fahrerassistenzsysteme, geleitet. Jia Peng war auch zuvor für die Voruntersuchung von Technologien wie dem Weltmodell von Li Auto verantwortlich.

Seit 2023 hat Li Auto die Technologie-Richtung für Fahrerassistenzsysteme mehrmals geändert: von einem auf hochpräzisen Karten und Regeln basierenden System zu einem "End-to-End"-System und schließlich zur aktuellen VLA-Modell-Richtung.

Die Umsetzung des "End-to-End"-Systems war ein entscheidender Schritt für Li Auto, um sich einen Namen zu machen. Das "End-to-End"-System wurde erstmals von Tesla umgesetzt. Im Vergleich zu den früheren, auf von Ingenieuren handschriftlich geschriebenen Regeln basierenden Systemen ist das "End-to-End"-System stärker auf die selbstständige Lernfähigkeit von KI-Modellen angewiesen. Die Informationen in der Kette "Wahrnehmung - Vorhersage - Planung - Steuerung" des Fahrerassistenzsystems können auch verlustfrei übertragen werden.

Das "End-to-End"-System von Li Auto wurde im November 2023 ins Leben gerufen. Aufgrund der hervorragenden Umsetzungsergebnisse hat Li Auto im Oktober 2024 das "End-to-End + VLM (Visual Language Model)"-System an alle Benutzer der Max-Version weitergeleitet. "Das war zwei Monate früher als ursprünglich geplant", sagte ein Insider.

Li Auto hat dadurch die Reputation eines "Schwachen" bei Fahrerassistenzsystemen verloren und schnell in die Spitzengruppe der Branche aufgestiegen. Xia Zhongpu, als Leiter der Serienproduktion des "End-to-End"-Systems, erhielt auch die Möglichkeit, sich innerhalb der Firma aufzustieben.

Dennoch glaubt Li Auto nicht, dass "End-to-End" die ultimative Lösung ist.

Im AI Talk am 7. Mai dieses Jahres erläuterte Li Xiang, CEO von Li Auto, die Überlegungen zur internen Technologie-Richtungsänderung. Er sagte: "End-to-End versteht die physische Welt nicht vollständig. Es ist eher eine Nachahmung." "End-to-End kann die meisten generellen Situationen bewältigen, aber wenn es auf besonders komplexe Situationen trifft, die es nie gelernt hat, wird es Probleme haben", sagte Li Xiang.

Obwohl Li Auto das VLM (Visual Language)-Modell in das "End-to-End"-System integriert hat, wird innerhalb der Firma immer noch angenommen, dass die Rolle des VLM begrenzt ist.

Li Auto setzt stattdessen auf die VLA (Vision-Language-Action)-Technologie-Richtung. Das VLA-Modell wurde erstmals von der Google-KI-Firma Deepmind entwickelt und wird hauptsächlich in der Robotik eingesetzt. Anschließend wurde es allmählich zur Haupttechnologie-Paradigma und -Rahmen in der Embodied AI-Branche.

Im Gegensatz zu visuellen Sprachmodellen (VLM) wie ChatGPT und Sora hat VLA die zusätzliche Fähigkeit, mit der physischen Welt zu interagieren. Mit anderen Worten, VLA versteht nicht nur die Umgebung, sondern kann auch direkt Steuerbefehle ausgeben, wie z. B. Roboterbewegungen oder Fahrentscheidungen für Fahrzeuge. Daher wird VLA auch in der Fahrerassistenztechnologie eingesetzt.

Li Auto glaubt, dass VLA durch die Kombination von 3D- und 2D-Vision die physische Welt vollständig wahrnehmen kann, im Gegensatz zu VLM, das nur 2D-Bilder analysieren kann. Gleichzeitig hat VLA ein komplettes Gehirnsystem mit Sprach- und CoT (Chain of Thought)-Schlussfolgerungsfähigkeiten. Es kann sehen, verstehen und tatsächlich Handlungen ausführen, was dem menschlichen Arbeitsweise entspricht.

Die Verbesserung der allgemeinen Weltwissen- und Schlussfolgerungsfähigkeiten von Fahrerassistenzsystemen wird zunehmend zur Tendenz in der Branche. Das kürzlich von NIO veröffentlichte Weltmodell-System betont auch die Fähigkeit, Verkehrsschilder und Texte zu erkennen. Das zuvor von XPeng veröffentlichte Cloud-Basis-Modell hat auch komplexe Ketten-Schlussfolgerungsfähigkeiten. Nach der Übertragung auf das Fahrzeug kann es die Fahrzeugsteuerung durch das große Modell ermöglichen.

Dennoch hat ein Branchenvertreter Automotoren von 36Kr mitgeteilt, dass die VLA-Richtung noch in der Anfangsphase ist und noch nicht durch eine Vielzahl von praktischen Anwendungen getestet wurde. Wie Li Xiang selbst sagte: "Wir gehen tatsächlich in ein unentdecktes Gebiet."

Mit dem Abgang des ehemaligen Leiters der "End-to-End"-Technologie-Richtung wird Li Auto noch entschiedener in die VLA-Großmodelle investieren.

Dieser Artikel wurde ursprünglich von「李安琪」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

Das Ideal setzt erneut auf VLA. Xia Zhongpu, der Leiter des "End-to-End"-Modells, wird kündigen | Exklusiv von 36Kr