StartseiteArtikel

He Xiaopeng: Bei der Entwicklung von Großen Sprachmodellen tastet jeder seinen Weg wie beim Überqueren eines Flusses indem man die Steine am Flussboden sucht | Exklusives Interview von 36Kr

李安琪2025-06-12 19:26
Das Fahrrad hat eine Rechenleistung von über 2000 Tops, aber die Funktionen befinden sich noch auf der Zeitplanung.

Text | Li Anqi

Redaktion | Li Qin

Vor Juni war das Auto mit der höchsten KI - Rechenleistung für Fahrerassistenzsysteme in China das Executive - Limousine - Modell ET9 von NIO. Es verfügt über eine Rechenleistung von über 2000 Tops und kostet ab 788.000 Yuan. Aber XPeng hat mit einem neuen Modell die Situation verändert.

Am Abend des 11. Juni präsentierte XPeng in Guangzhou sein neues SUV - Modell G7. Doch auf der Vorstellungspräsentation sprach CEO He Xiaopeng mehr als die Hälfte der Zeit über den Fahrerassistenz - Chip "Turing" des neuen Autos. In der anschließenden Pressekonferenz drehten sich die Fragen der Medien und die Antworten von He Xiaopeng hauptsächlich um diesen Chip.

Das neue Modell G7 ist mit drei selbst entwickelten Turing - KI - Chips von XPeng ausgestattet. He Xiaopeng sagte, die effektive Rechenleistung des G7 entspricht der von neun Orin - X - Chips, "das entspricht einer effektiven Rechenleistung von über 2200 Tops, was 3 - 28 Mal höher ist als die anderer Chips in der Branche".

Der momentan am weitesten verbreitete Ansatz in der Branche ist die Verwendung von zwei NVIDIA Orin - X - Chips mit einer Rechenleistung von 508 Tops. Selbst die neuesten Fahrzeuge von Xiaomi und Li Auto, die mit dem neuesten NVIDIA - Onboard - KI - Chip ThorU ausgestattet sind, haben nur eine Rechenleistung von etwa 700 Tops.

Das Ziel von XPeng ist es, einen Rechenleistungssicherheitszeitraum von fünf Jahren zu erreichen. He Xiaopeng sagte auf der Vorstellungspräsentation: "Viele Analystenberichte sagen, dass in Zukunft Rechenleistungen von mehreren hundert Tops, 1000 Tops oder 4000 Tops benötigt werden. Dies könnte in den nächsten 2 - 3 Jahren erreicht werden, spätestens bis 2030, also in fünf Jahren. XPeng hat dies bereits früher erreicht."

Er ist der Meinung, dass eine hohe Rechenleistung der Grundstein für Level - 3 - oder sogar Level - 4 - Autonomes Fahren ist. Daher wird das G7 von XPeng als "erstes AI - Auto mit Level - 3 - Rechenleistung" positioniert, und der Vorverkaufspreis beginnt bei 235.800 Yuan.

He Xiaopeng sagte: "Level - 3 - Rechenleistung" und "KI - Fähigkeiten" sind der erste Schritt hin zu Level - 3 - Autos. Sie bedeuten, dass das Auto bereits über Level - 3 - Intelligenz verfügt, aber erst nach der Hardware - Redundanz und der gesetzlichen Zertifizierung kann es als echtes Level - 3 - Auto bezeichnet werden.

XPeng hat derzeit keine Pläne, den Turing - KI - Chip als Standardausstattung zu installieren. Das Modell G7 Max ist weiterhin mit zwei NVIDIA Orin - X - Chips ausgestattet.

Im höheren Ausbaustand G7 Ultra hat XPeng drei Turing - KI - Chips verbaut. Zwei von ihnen werden für das Fahrerassistenzsystem verwendet und arbeiten zusammen mit dem lokal installierten VLA - OL (Visual - Language - Action) - Modell im Auto. "Die Obergrenze der Fahrerassistenzfähigkeiten ist um mehr als das 10 - fache höher als bei anderen Max - Modellen in der Branche."

Der andere Chip wird für die intelligente Fahrgastzelle verwendet und betreibt das VLM (Visual - Language - Large - Model). He Xiaopeng ist der Meinung, dass eines der Kriterien für ein Level - 3 - Auto mit hoher Rechenleistung die lokale Installation von VLM - und VLA - Modellen ist.

Dies sind derzeit zwei beliebte Multimodal - Large - Modelle. Das VLM - Modell legt mehr Wert auf das Verständnis von Bildern / Videos und Texten und gehört zu den Aufgaben auf der Wahrnehmungs - und Erkenntnisebene. Das VLA - Modell hat auf der Grundlage des VLM zusätzlich die Fähigkeit, "Aktionen" mit der physischen Welt zu interagieren, wie z. B. die Generierung von Steuerungssignalen für das Fahrerassistenzsystem.

Nach Berichten von 36Kr kann ein einzelner Turing - KI - Chip von XPeng ein Large - Model mit bis zu 30 Milliarden Parametern verarbeiten. Wenn zwei Chips für das Fahrerassistenzsystem zusammenarbeiten, hat das XPeng - VLA - Modell tatsächlich mehr Spielraum.

"Eine hohe Rechenleistung kann die Obergrenze der KI - Fähigkeiten erheblich erhöhen und auch die Untergrenze, insbesondere die in Bezug auf die Sicherheit, verbessern", sagte He Xiaopeng auf der Vorstellungspräsentation.

Er gab ein Beispiel: Beim Fahren auf einer geraden Straße kann die Fahrweise mit dem VLA - Modell und dem "End - to - End" - Ansatz ähnlich sein. "Aber was passiert, wenn es eine höhere Rechenleistung gibt? Ein System mit geringer Rechenleistung kann möglicherweise nur 3 bis 5 Bilder pro Sekunde verarbeiten, höchstens 10 Bilder. Ein System mit hoher Rechenleistung kann 10, 20 oder 30 Bilder pro Sekunde oder sogar noch mehr verarbeiten. Eine höhere Rechenleistung bedeutet kürzere Latenzzeiten. Was bedeutet das? Es sieht so aus, als ob das Fahren auf einer geraden Straße gleich ist, aber die Sicherheitsstufe ist völlig unterschiedlich."

XPeng nennt das auf dem Turing - Chip basierende Modell das AVL - OL - Modell. Auf der Grundlage des "Verhaltens - Kleinhirns" im End - to - End - Ansatz wurde ein "Bewegungs - Großhirn" hinzugefügt. Durch die interne Verstärkungslern - Training von XPeng "ist die Obergrenze der Fähigkeiten für intelligentes Fahren um mehr als das 10 - fache höher als bei anderen Max - Modellen in der Branche".

Beispielsweise zeigt das VLA - Modell bei der Erkennung von Rettungswagen, der besten Zeit für Spurwechsel, sowie bei Straßenbrüchen und Schlaglöchern bessere Ergebnisse, wie He Xiaopeng sagte.

Er betonte jedoch auch, dass diese Szenarien noch auf der Zeitplanung stehen und noch nicht sofort realisiert werden können. Mit anderen Worten, die Chip - Hardware ist voraus, aber die Erkundung der Benutzererfahrung und der Funktionen ist noch nicht vollständig vorbereitet.

Bei der Pressekonferenz sagte He Xiaopeng gegenüber 36Kr Auto: "Auf dem Weg der Large - Modelle gehen alle vorsichtig vor."

Der VLA - Ansatz scheint sich zu einer Wahl der ersten Liga von Herstellern für Fahrerassistenzsysteme in China zu entwickeln. Li Auto hat bereits mit der Entwicklung dieses Ansatzes begonnen. Dies ist jedoch auch der Abzweigungspunkt zwischen chinesischen Herstellern und Tesla's FSD - Ansatz. Laut öffentlichen Informationen setzt Tesla weiterhin auf den "End - to - End" - Ansatz und hat keine engen Beziehungen zu Multimodal - Large - Modellen.

Aber ähnlich wie Tesla besteht ein Bedarf an hoher Rechenleistung im Fahrzeug. Tesla hat bereits die nächste Generation der Hardware für autonomes Fahren, AI5, geplant. Einige Brancheninstitute schätzen, dass die Rechenleistung von AI5 zwischen 3000 und 7200 Tops liegen wird. Zusammen mit Teslas Fähigkeiten in Bezug auf die Integration von Hardware und Software könnte das nächste Fahrerassistenzsystem näher an autonomem Fahren sein.

Dies ist auch das Ziel, das XPeng erreichen möchte, nämlich eine effizientere Leistung durch die Integration von Hardware und Software. "Durch die Optimierung des Compilers können wir unsere Fähigkeiten weiter verbessern. In anderthalb Jahren können wir möglicherweise einen Chip so optimieren, dass er die Leistung von vier Chips hat. Das wäre großartig. Wir arbeiten weiterhin an der Verbesserung dieser Möglichkeit."

Aktuell gibt es jedoch heftige Veränderungen in der Technologie - Route der Fahrerassistenzbranche. Fast jedes Jahr gibt es neue Ansätze. Laut He Xiaopeng wurde der Schlüsselmodul der Entwicklung des Turing - Chips 2022 verworfen, und die endgültige Architektur wurde erst 2022 festgelegt.

Um einen Sicherheitszeitraum von fünf Jahren zu gewährleisten, muss das Team des Turing - Chips die technologischen Veränderungen in den nächsten acht Jahren vorausschauen. Dies wird eine Herausforderung für die Speicherbandbreite des Chips und andere Aspekte sein. Selbst NVIDIA hat bei der Serienproduktion des neuesten Chips Thor Probleme mit der Wärmeableitung und der geringen Ausbeute. Als Neuling in der Chip - Entwicklung hat XPeng erst begonnen, sich diesen Herausforderungen zu stellen.

Außer dem Turing - KI - Chip stellte He Xiaopeng auch andere Highlights des G7 vor. Beispielsweise gibt es die Option einer einzigen, überlangen Reichweite von 702 km, ein Fahrgastraum, der 37 20 - Zoll - Koffer aufnehmen kann, ein AR - HUD, das mit dem von Huawei identisch ist, und ein AI - Hawk - Eye - Visuelles System.

Mit der stark vereinfachten SKU, der Übernahme der Stärken erfolgreicher interner Modelle, der Zusammenarbeit mit Huawei bei der HUD - Technologie und seinem eigenen Chip mit hoher Rechenleistung ist XPengs Erwartung an das G7 offensichtlich: Es soll nicht nur die Preislücke zwischen G6 und G9 schließen, sondern auch hohe Verkaufszahlen und einen hohen Durchschnittspreis erzielen.

Aber im Markt für reine Elektro - SUVs im Preissegment von 200.000 bis 250.000 Yuan im zweiten Halbjahr wird das XPeng G7 auch auf Modelle wie das Xiaomi YU7 und das Li i6 stoßen. Bevor der Kampf beginnt, ist die Begeisterung bereits hoch.

Insgesamt hat XPeng fast alles auf den Turing - KI - Chip gesetzt, um die Zukunft der Fahrerassistenz in Richtung Large - Modelle zu erkunden. Umgekehrt stützt die Serienproduktion und Lieferung des Turing - Chips auch XPengs "Wildwünsche" wie Level - 3 - Fahrerassistenz und VLA - Large - Modelle. Beide sind miteinander verflochten, und XPeng muss vorsichtig vorgehen, während es sich in der "Niemandsland" befindet.

Im Folgenden finden Sie das edierte Gespräch zwischen 36Kr und anderen Medien mit He Xiaopeng, CEO von XPeng, und Nick, Produktverantwortlicher für das XPeng G7:

Frage: Warum hat der selbst entwickelte Chip von XPeng eine höhere effektive Rechenleistung als herkömmliche Chips? Einige Unternehmen haben beim Ausführen von Algorithmen mit selbst entwickelten Chips Probleme wie langsame Inferencespeed, geringe Genauigkeit und starke Wärmeentwicklung. Hat XPeng ähnliche Probleme? Wie werden sie gelöst?

He Xiaopeng: Ehrlich gesagt war die Entwicklung unseres Chips anfangs sehr schwierig. In letzter Zeit hatten wir viel Glück, und alles von der Chip - Produktion bis zur Anwendung lief relativ glatt. Aber wir haben auch viele Herausforderungen erlebt und haben kürzlich viel Personal für die Entwicklung von Tools und Compilern eingesetzt.

Durch die Optimierung des Compilers können wir unsere Fähigkeiten weiter verbessern. In anderthalb Jahren können wir möglicherweise einen Chip so optimieren, dass er die Leistung von vier Chips hat. Das wäre großartig. Wir arbeiten weiterhin an der Verbesserung dieser Möglichkeit. Wenn wir nach der Massenproduktion Probleme bei der Speicherauslastung, der Zuverlässigkeit oder der Wärmeentwicklung feststellen, würde das für uns von großer Bedeutung sein.

Frage: Wie kann man den Benutzern die Fähigkeiten von VLA und VLM, die durch den Turing - Chip ermöglicht werden, in der gegenwärtigen Phase vermitteln, damit sie eher für die Ultra - Version entscheiden?

He Xiaopeng: Die Rechenleistung ist die Grundlage. Wir entwickeln viele interessante Funktionen. Am Anfang des G7 - Modells gibt es möglicherweise nicht viele Funktionen, aber später werden wir durch OTA - Updates jeden Monat neue Funktionen hinzufügen. Ich hoffe, dass innerhalb dieses Jahres einige wichtige Funktionen online gehen.

Wir haben erst seit etwas mehr als einem Jahr an diesem Projekt gearbeitet. Das Wichtigste ist, dass das Large - Model auf der neuen Rechenleistung - Plattform gut läuft. Dies ist die Grundlage. Dann müssen wir viele Optimierungen in Bezug auf Leistung, Stabilität und Effektivität vornehmen, viel Daten für das Training hinzufügen und die Grundfunktionen verbessern. Erst wenn wir alle diese Schritte abgeschlossen haben, können wir interessante Anwendungsfälle entwickeln.

Wir haben die ersten drei Schritte bereits abgeschlossen und arbeiten jetzt daran, diese in interessante Szenarien umzuwandeln. Wir haben so viel Rechenleistung und Speicherplatz eingebaut, damit wir in den nächsten Jahren weiter vorankommen können.

Frage: Drei Turing - Chips, wobei einer für die Fahrgastzelle und zwei für das intelligente Fahrerassistenzsystem verwendet werden. Wie kooperieren die beiden Chips? Läuft eines das VLM - Modell und das andere das VLA - Modell? Wie sind die Chips miteinander verbunden?

He Xiaopeng: Dies betrifft die Zusammenarbeit zwischen den Kernen und zwischen den Chips. Zwischen den Chips verwenden wir PCIe. Unser Speicher läuft auf vier Rechenkernen, einschließlich eines Qualcomm 8295. In Zukunft wird die Ausführung von größeren Modellen eine höhere Speicherbandbreite erfordern, und das ist tatsächlich eine Herausforderung.

Dies ist auch das, was unser nächstes EEA - Architektur - Projekt lösen soll. Dies kann bis zu einem gewissen Grad durch selbst entwickelte Chips gelöst werden, wie z. B. D2D (Kommunikation zwischen zwei separat verpackten Chips) und neue Technologien der nächsten Generation. Der zweite Teil wird in der elektronischen und elektrischen Architektur des Fahrzeugs gestaltet. Wir entwickeln einige interessante Funktionen, wie die Möglichkeit, zwei oder mehrere Turing - Chips zusammenzufassen, um ein riesiges VLA - Modell auszuführen. Wenn wir es fertig haben, werden wir es mit Ihnen teilen.

Frage: 2000 Tops Rechenleistung ist die Schwelle für ein Level - 3 - Auto. Wie hat XPeng diesen Standard festgelegt?

He Xiaopeng: Derzeit liegt die Rechenleistung von High - End - Level - 2 - Fahrerassistenzsystemen in der Branche hauptsächlich bei 500 Tops oder 700 Tops. In gewisser Weise gibt es zwischen diesen Werten nicht viel Unterschied. Ich bin der Meinung, dass nur eine vielfache Erhöhung der Rechenleistung die Wahrscheinlichkeit einer vielfachen Verbesserung des Modells erhöht. Wir haben gesehen, dass einige Konkurrenten Chips mit 2000 Tops oder sogar 4000 Tops Rechenleistung einführen. Dies wird die Grundlage für Level - 3 - oder sogar Level - 4 - autonomes Fahren sein.

Warum nicht noch mehr? Wenn man 50 Chips mit 100 Tops Rechenleistung hat, hat man insgesamt 5000 Tops. Aber kann man damit ein Large - Model ausführen? Nein. Dies hängt mit der Chip - Technologie und der Speicherbandbreite zusammen und ist ein komplexes Problem. Deshalb ist dies bis heute die beste Lösung.

Frage: Die Branche sieht das VLA - Modell als eine Weiterentwicklung des VLM - Modells an. Warum installiert XPeng beide Modelle lokal? Wie wird die Rechenleistung des Turing - Chips zwischen dem Fahrerassistenzsystem und der Fahrgastzelle aufgeteilt?

He Xiaopeng: Das VLA - Modell ist eigentlich das "Bewegungs - Großhirn" und das "Bewegungs - Kleinhirn", während das VLM - Modell das "Gesamt - Großhirn" des Fahrzeugs ist und der Eingang für die Interaktion zwischen Fahrzeug und Mensch. Das VLA - Modell ist ein schnelleres Modell, das 20 oder sogar 30 Bilder pro Sekunde verarbeiten kann, während das VLM - Modell nur 2 Bilder pro Sekunde oder 3 Bilder in zwei Sekunden verarbeiten kann. Das VLM - Modell kann größere, aber langsamere Aufgaben ausführen. Sie sind durch Daten miteinander verbunden, aber es gibt keinen vollständigen End - to - End - Datenfluss zwischen den beiden Modellen, und das ist auch nicht notwendig.

In Zukunft könnte es sein, dass ein Fahrzeug mit einer enormen Rechenleistung und einem stärkeren Modell nur ein Modell benötigt, aber das ist derzeit noch nicht möglich. Deshalb müssen wir die Funktionen aufteilen. Einige Funktionen betreffen die Bewegung, andere das Gedächtnis, andere das Gespräch und andere das Denken, ähnlich wie bei der Hirn - Partitionierung.

Frage: Wann wird der Turing - Chip zum Standardausstattung