He Xiaopeng: Vollautomatisiertes Fahren wird in den nächsten 1-3 Jahren tatsächlich eintreffen | Die neuesten Nachrichten
He Xiaopeng, Vorsitzender von XPeng Motors
Text | Xiao Man
Redaktion | Li Qin
„Nach unseren internen Vergleichstests glaube ich, dass wir fast fünfmal besser als die Spitzenkonkurrenten in der Branche sind.“ sagte He Xiaopeng, Vorsitzender und CEO von XPeng Motors, bei einem Austausch nach der Vorstellung der zweiten Generation VLA.
Die Entwicklung der autonomen Fahrtechnik wandelt sich von „Software definiert das Auto“ zu „KI definiert das Super-Intelligente Wesen“. Unter der neuen Welle hat XPeng Motors eine radikale Lösung für die Zukunft vorgelegt: Es überspringt die Stufe L3, bei der es sowohl bei der Hardware, der Software als auch den Vorschriften zu Kompromissen kommt, und richtet sich direkt an die Stufen L2 und L4 als Kernankerpunkte für die Entwicklung der autonomen Fahrtechnik.
Nach Ansicht von He Xiaopeng gibt die zweite Generation VLA XPeng bereits die Möglichkeit, direkt von L2 zu L4 zu gelangen.
Genau wie Tesla macht XPeng nicht einfach Anpassungen an dem bestehenden Rahmen der autonomen Fahrtechnik, sondern löst das Problem, indem es die automatische Fahrweise als die Umsetzung der allgemeinen Künstlichen Intelligenz (AGI) in der physischen Welt betrachtet. Vor der strategischen Änderung hat XPeng das Zentrum für das intelligente Cockpit und das Zentrum für die automatische Fahrweise zusammengeführt, um die KI-Ressourcen zu zentralisieren und ein einheitliches Mittelzentrum zu bilden, um so die Entwicklungseffizienz zu erhöhen.
Die aktuelle Strategie von XPeng ist, die Idee der Weltmodellbildung einzuführen, um eine tiefe Integration des intelligenten Cockpits und der intelligenten Fahrweise zu erreichen. Dadurch werden das intelligente Cockpit und die intelligente Fahrweise nicht mehr isoliert, sondern zu einem „starken Super-Intelligenten Wesen (Agent)“ fusioniert, das in den nächsten 1 - 3 Jahren den Sprung von einem passiven Werkzeug zu einem aktiven Dienstleister schaffen soll.
Die Grundlage für die Verwirklichung dieser Vorstellung ist ein erstklassiges Basismodell und die Lösung des Dataproblems. Liu Xianming, Verantwortlicher für das Zentrum für allgemeine KI bei XPeng Motors, meint: „Ein gutes Basismodell ist eine Pflicht für ein Unternehmen, das sich mit L4 beschäftigt. Wenn man das nicht macht, kann man bei dieser technologischen Transformation zurückbleiben oder die vollständige technologische Transformation nicht abschließen.“
Die technologische Transformation von XPeng ist hinreichend entschieden, und die Software-Upgrades für die Intelligenz sind bereits der Kernpunkt der Produkte von XPeng Motors. Aber wie 36Kr Auto zuvor berichtet hat, ist XPeng derzeit immer noch ein Automobilunternehmen, dessen Kernumsatz aus dem Verkauf von Autos stammt. In dem immer wettbewerbsintensiveren chinesischen Automarkt müssen alle Unternehmen, darunter auch XPeng, in der doppelten Transformation des Marktumfelds und der Technologie nach einer Umstellung suchen.
Im Folgenden finden Sie den Inhalt des Gesprächs zwischen 36Kr Auto und He Xiaopeng, Vorsitzender und CEO von XPeng Motors, sowie Liu Xianming, Verantwortlicher für das Zentrum für allgemeine KI bei XPeng Motors, leicht bearbeitet:
Frage: Warum schlägt XPeng vor, die Stufe L3 zu überspringen und hat diesen Vorschlag auch an die Zweitagung gerichtet? Ist es, damit wir eine führende Technologie haben?
He Xiaopeng: Ich denke, ab L4 gibt es ein neues Verantwortungsträger. Angesichts der heutigen globalen Technologieentwicklung ist es im Grunde genommen, dass der nächste Schritt nach L2 L4 ist. Das Einfügen einer speziellen Stufe L3 ist tatsächlich eine Herausforderung für die Hardware, die Software und die Gesetze und Vorschriften. Aus meiner Sicht sollten es in China L2 und L4 sein.
Frage: Wie viele Fahrzeuge werden mit der zweiten Generation VLA ausgestattet? Können Sie eine grobe Schätzung geben?
He Xiaopeng: Alle unsere Ultra- und UltraSE-Modelle werden mit der zweiten Generation VLA ausgestattet. Sie können sich das so vorstellen, dass die zukünftigen Modelle von XPeng auf dem globalen Markt zwei Optionen für die intelligente Fahrassistenz bieten werden: die Basisversion und die Spitzenversion.
Frage: Wie gut ist die zweite Generation VLA tatsächlich? Kann sie bereits vollständig L4 erreichen, oder in welchem Stadium befindet sie sich?
Liu Xianming: Momentan können wir noch nicht sagen, dass wir vollständig L4 erreicht haben. Aber die gesamte VLA 2.0 hat ein sehr allgemeines und effizientes System aufgebaut. Deshalb gibt es fast täglich neue Versionen, um ständig neue Probleme zu lösen. Die Fortschrittsdynamik ist auch über unsere Erwartungen hinaus. Wir sind daher zuversichtlich, dass wir in naher Zukunft ein relativ komplettes System auf L4-Niveau aufbauen können.
Es ist momentan noch nicht möglich, ein konkretes Datum anzugeben. Der Chef hat 1 - 3 Jahre genannt. Unsere Einschätzung ist, dass, wenn die tägliche Iterationsgeschwindigkeit immer schneller wird und die Kurve der Trainingsgeschwindigkeit und der Datenmenge ansteigt, ich glaube, dass es schnell gehen wird, wenn wir diesen Zustand aufrechterhalten können.
Frage: Warum wurden das intelligente Cockpit und die intelligente Fahrweise zusammengeführt und so die Organisationsstruktur geändert? Dies scheint auch ein Trend bei den Automobilherstellern zu sein. Wie unterscheidet sich diese Änderung bei XPeng Motors von denen anderer Automobilhersteller?
He Xiaopeng: Die Automobilbranche tritt in eine neue Phase der Cross-Domain-Integration ein: Die automatische Fahrweise ist die Bewegung des gesamten Fahrzeugs, das intelligente Cockpit ist das Gehirn des gesamten Fahrzeugs. Zusammen mit der Antriebseinheit und der Fahrwerkstechnik glauben wir, dass diese vier Domänen sich in der Cross-Domain-Integration befinden.
Bei zukünftigen L4- oder Robotaxi-Modellen werden viele Hersteller von der bisherigen Integration in einer einzigen Domäne (beispielsweise die Integration von mehreren Zulieferern in einer Domäne oder die eigene Entwicklung einer Domäne) zur Cross-Domain-Integration übergehen. Dadurch kann das Fahrzeug schneller, sicherer und empfindlicher werden, seine Fähigkeiten um ein Vielfaches gesteigert werden und es kann von der passiven Nutzung zu einem aktiven Dienstleister werden. Deshalb ist das von Xianming verantwortete Zentrum für allgemeine KI ein Teil des Cross-Domain-Integrationsprozesses.
Deshalb bin ich fest davon überzeugt, dass die vollautomatische Fahrweise in 1 - 3 Jahren realisiert werden wird und dass alle Autos in 3 - 5 Jahren zu starken Super-Intelligenten Wesen werden werden.
Frage: Die zweite Generation VLA realisiert eine Ende-zu-Ende-Intelligenzrevolution und wird Ende dieses Monats an alle Fahrzeuge ausgerollt. Wie wird diese Produktstrategie mit einheitlicher Basistechnologie und zwei Antriebsoptionen die Vorgehensweise von XPeng auf dem Premiummarkt in den nächsten drei Jahren bestimmen?
He Xiaopeng: In den nächsten 1 - 3 Jahren wird das Auto von der Software- zur KI-Era wechseln, von der getrennten Entwicklung von Hardware und Software zur Cross-Domain-Integration übergehen und von einem einfachen intelligenten Elektrofahrzeug zu einem hochintelligenten Agenten, der aktive Dienstleistungen erbringen kann, aufgewertet werden. Da XPeng in mehreren Bereichen gleichzeitig forscht und entwickelt, werden Sie in den nächsten 1 - 3 Jahren viele Ergebnisse der Cross-Domain-Integration sehen.
Deshalb bin ich so aufgeregt, weil ich denke, dass es für die Automobilhersteller immer schwieriger wird, gute Lösungen zu entwickeln, auch bei den herkömmlichen Verbrennungsmotoren. Das Auto wird von einem passiven Produktionswerkzeug zu einem aktiven Produktivitätsgenerator werden. Ich denke, dass dies ein bahnbrechendes Ereignis ist, das in etwa 3 - 5 Jahren eintreten wird.
Frage: Sie haben gerade erwähnt, dass das Basismodell die Grundlage für die Umsetzung von L4 ist. Aus Sicht der Branche wird das Basismodell von vielen Robotaxi-Anbietern bisher kaum erwähnt, oder sie wählen andere Technologielösungen. Wird das Basismodell in Zukunft zum Standard für Robotaxi-Unternehmen werden?
Liu Xianming: Es hat sich bei der Technologie der Stufe L4 oder der automatischen Fahrweise bereits eine große Veränderung ergeben. Wir haben in der Vergangenheit gesehen, dass viele L4-Unternehmen wie Waymo eine relativ geringe Obergrenze haben und sich nur in einem engen Bereich verbessern können. Dies bringt ein weiteres Problem mit sich, nämlich das ODD-Konzept bei L4. Wo kann das Fahrzeug überhaupt fahren? Das hängt nur davon ab, wie viele Fahrzeuge es gibt, wie viele Daten gesammelt wurden und wie viele Karten erstellt wurden. Wenn man also das Problem wirklich verallgemeinert lösen will, muss die Technologieparadigma unweigerlich wechseln.
Wir haben auch auf der Pressekonferenz erwähnt, dass ein gutes Basismodell für ein L4-Unternehmen unerlässlich ist. Wenn man das nicht macht, kann man bei dieser technologischen Transformation zurückbleiben und die vollständige technologische Transformation nicht abschließen.
Frage: Bei der Einführung der zweiten Generation VLA in ausländische Märkte haben Sie erwähnt, dass Sie derzeit in Schweden Cloud-Modelle für die Simulationsschulung verwenden. Tesla hat auch bei der Entwicklung des FSD in China über Netzwerkvideos und Simulationsschulungen vorgegangen. Wie vermeiden wir ähnliche Probleme wie Teslas „Unverträglichkeit mit der lokalen Umgebung“?
Liu Xianming: Wie Sie aus dem Video, das der Chef heute gezeigt hat, sehen können, hat das Modell der zweiten Generation VLA bereits starke Fähigkeiten, obwohl es noch nicht an ausländische Daten angepasst wurde. Zweitens ist XPeng ein globales Unternehmen. Wir werden unter Einhaltung der Vorschriften in allen Ländern, in denen es XPeng-Fahrzeuge gibt, die lokalen Daten nutzen können. Drittens können wir durch die Generierung von Weltmodellen auch schnell einen guten Ausgangspunkt für die Verallgemeinerung von Szenarien erreichen.
Die globale Strategie von XPeng für die automatische Fahrweise basiert auf der Kombination dieser Aspekte: Das Modell muss eine starke Verallgemeinerungsfähigkeit haben und nicht nur auf chinesischen Daten basieren und nur in China funktionieren. Dazu kommt die globale Präsenz von XPeng und die technologischen Durchbrüche.
Frage: Wenn das Welt-Basismodell mehrere verschiedene Intelligente Wesen gleichzeitig unterstützt, gibt es dann technische Engpässe bei der mehrmodalen Interaktion und der Raumwahrnehmung? Können verschiedene Formen von Intelligenten Wesen das Basismodell verbessern und so die Optimierung des Modells fördern?
Liu Xianming: Die Wiederverwendbarkeit der unteren Ebenen sollte relativ hoch sein. Das gesamte VLA oder das Basismodell ist von Grund auf mehrmodal konzipiert und nicht nur für die automatische Fahrweise bestimmt, sondern kann wiederverwendet werden. Wir erforschen derzeit noch die genauen Möglichkeiten der Wiederverwendung und können derzeit keine eindeutigen Ergebnisse liefern. Derzeit ist es unsere erste Aufgabe, das Ganze im Fahrzeug umzusetzen und dann die Kopplung zwischen Cockpit und Fahrweise voranzutreiben.
Frage: Seit die automatische Fahrweise vom Ende-zu-Ende-Ansatz zum Modellansatz gewechselt hat, verwenden viele Menschen menschliche Daten für das Imitationslernen. Heute hat Xianming auch Beispiele für die intensive Lernmethode des Weltmodells in der Simulationswelt geteilt. Aber seit letztem Jahr wird von vielen Menschen gesagt, dass menschliche Daten nicht mehr so wertvoll sind. Was halten Sie davon?
He Xiaopeng: Ich denke, dass die Datenmenge in der physischen Welt und der menschlichen Welt momentan unendlich ist.
Früher dachte ich, dass es genug wäre, wenn 10.000 oder 100.000 Autos eine gewisse Anzahl von Kilometern gefahren wären. Jetzt denke ich, dass das weit nicht genug ist. Viele Leute sagen, dass sie eine Flotte haben oder ein Unternehmen besitzen und, weil sie viele Autos verkaufen, viele Daten haben. Das ist falsch. Ich denke, dass es sehr schwierig ist, hochwertige, wertvolle und riesige Datenmengen zu sammeln. Sowohl bei Autos als auch bei Robotern ist dieses Thema noch lange nicht abgeschlossen. Das ist meine Meinung.
Frage: Ist die RL-Intensivlernenstechnik wirklich die Wundermethode, die alle Probleme lösen kann? Gibt es Dinge, bei denen sie nicht so gut ist?
Liu Xianming: Die Intensivlernenstechnik ist keine Wundermethode. In der Wissenschaft und in der Industrie wird viel von ihrer Stärke gesprochen, aber sie benötigt unbedingt ein sehr starkes Basismodell - mindestens muss es in der Lage sein, eine lösbare Lösung für das Problem zu finden. Wenn es diese Fähigkeit nicht hat, kann die Intensivlernenstechnik nicht weiter verbessert werden.
Aber die Intensivlernenstechnik ist eine sehr effiziente Lernmethode, die gezielt Probleme löst und ständig Seltenszenarien erforscht. Deshalb denke ich, dass man die Intensivlernenstechnik nicht als die Allheilmethode ansehen sollte, sondern als eine sehr effiziente Lernmethode.
Frage: Der Wettlauf um die Rechenleistung auf dem Markt wird immer heftiger. Die Konkurrenten setzen immer mehr Rechenleistung ein, aber viele Benutzer merken nach der praktischen Erfahrung, dass die Erhöhung der Rechenleistung nicht so deutlich spürbar ist wie die Zahlen es vermuten lassen. Wo liegt das Problem?
Liu Xianming: Die Rechenleistung ist nicht nur eine schöne Zahl auf Papier. Wichtiger ist es, die Rechenleistung effektiv zu nutzen. Das ist das Kernproblem. Deshalb gehen wir von der allgemeinen Prozessorarchitektur zu der speziellen ASIC-Prozessorarchitektur über. Wenn Sie sich NVIDIA ansehen, hat es in der GPU- und CUDA-Zeit genau das getan - die Rechenleistung effektiv nutzen, was wertvoller ist als einfach nur die Rechenleistung zu erhöhen. Deshalb ist es wichtig, nicht nur über viel Rechenleistung zu verfügen, sondern sie auch effektiv zu nutzen.
Außerdem erfordert eine hohe Rechenleistung unbedingt eine höhere Informationsdichte der Eingabe und ein größeres Modell. Andernfalls dreht die Rechenleistung leer. All diese Faktoren zusammen bedeuten, dass, wenn es nur um den Wettlauf um die Rechenleistung geht und man einfach die Zahlen hochstellt, die Verbraucher keine deutliche Verbesserung spüren werden.
Frage: Aus den Branchenpraktiken der letzten 2 - 3 Jahre gibt es hauptsächlich zwei Methoden, wie das Modell Entscheidungen trifft und Bahnen berechnet. Die erste Methode ist, dass das große Modell direkt die endgültige Bahn angibt. Die zweite Methode ist, dass es mehrere Bahnen angibt und das System dann eine davon auswählt. Welche Methode wendet die zweite Generation VLA von XPeng an? Gibt es Vor- und Nachteile zwischen diesen beiden Methoden? Welche Methode entspricht eher der zukünftigen Entwicklungstrend?
Liu Xianming: Das Kernproblem ist, ob man sich auf die automatische Fahrweise oder auf die KI konzentriert. Wenn man diese Frage beantwortet, ist die Antwort eigentlich klar. Wir entwickeln eine KI, nicht nur für die automatische Fahrweise. Deshalb ist unser Ansatz, wie ein KI-Modell funktioniert.
Nachdem wir bereits so viele Veränderungen vorgenommen haben, werden wir nicht so viele alte Logiken beibehalten, wie die heuristischen Methoden (Regeln auf der Grundlage von Erfahrungen).