Aufholjagd nach FSD V14: Welche Lücken schließt Li Auto? | Frontlinie
In den letzten Jahren hat sich das Schwergewicht des Wettbewerbs in der Branche der autonomen Fahrtechnik mehrmals deutlich verlagert.
Anfangs ging es vor allem um die Hardware: Ob man Lidar-Sensoren einsetzen sollte, wie viele Kameras installiert werden sollten und wie hoch die Rechenleistung in TOPS sein sollte. Anschließend trat die Ära der großen Modelle ein, und der Wettbewerb wandte sich den Ansätzen wie End-to-End, VLA (Vision-Language-Action) und World Model (Weltmodell) zu.
Heutzutage erkennen immer mehr Unternehmen, dass es nicht mehr ausreicht, nur ein größeres Modell zu haben, um einen Generationenvorsprung zu erzielen. Tatsächlich wird es zur entscheidenden Frage, ob sich Modelle, Daten, Rechenleistung und Chips in einem kontinuierlich iterierenden Kreislauf befinden können.
Das ist auch der Grund, warum immer mehr Automobilhersteller sich für die Eigenentwicklung entscheiden.
Tesla deckt fast alle Schritte von der Datenerfassung, der Trainingsinfrastruktur, dem FSD-Modell bis hin zu Dojo und den selbst entwickelten Chips ab. In China streben auch Unternehmen wie XPeng, NIO und Li Auto immer stärker in Richtung der Tieferlegung ihrer Technologiestapel.
Bei den im aktuellen Jahr vorgestellten Modellen L8 und L9 setzt Li Auto bereits den selbst entwickelten Chip Mahe M100 ein. Dieser Chip mit einem Datenfluss-Architektur wird von Li Auto als ein großer technologischer Trend für die Künstliche Intelligenz angesehen. Auf dem Mahe M100 wird auch das selbst entwickelte Mahe VLA-Modell ausgeführt.
Für die Branche ist jedoch die wichtigere Frage nicht, ob man über Eigenentwicklung verfügt, sondern welche Probleme diese Investitionen tatsächlich lösen können.
Mit dieser Frage sprachen wir mit Zhan Kun, dem Verantwortlichen für die autonome Fahrtechnik bei Li Auto, und Xie Yan, dem Chip-Verantwortlichen. Sie sprachen über die Einschätzungen von Li Auto in Bezug auf die nächste Generation der autonomen Fahrtechnik und erläuterten die Entwurfslogik hinter den selbst entwickelten Chips, dem Datensystem und der KI-Infrastruktur. Im Folgenden finden Sie einen Auszug aus dem Interview, nachbearbeitet:
Frage: Welche Arbeit muss Li Auto noch leisten, um im vierten Quartal die Effekte von Teslas FSD V14 zu erreichen?
Zhan Kun: Ich denke, es gibt zwei Ebenen, um FSD einzuholen.
Die erste Ebene ist die Basisqualität, konkret in drei Aspekten: Kann die Sicherheit, die Effizienz und der Komfort das Niveau von FSD erreichen? FSD bietet eine hohe Sicherheit, gute Effizienz und Komfort. Das sind seine Grundlagen. Ich muss nicht unbedingt auf schwierigen Straßen fahren, aber diese Grundlagen können auf diesem Niveau liegen.
Die zweite Ebene ist die Fähigkeit, und das ist auch sehr schwer einzuholen. Beispielsweise gibt Tesla besonderen Fahrzeugen den Vorrang, hat eine hohe Wahrnehmungsgenauigkeit bei sehr engen Passagen und erkennt die Signale von Polizeibeamten. Diese Fähigkeiten sind sehr stark.
Bei der Fähigkeit gibt es Chancen für eine Architekturerneuerung. Warum haben nur Tesla diese Fähigkeiten, andere nicht? Vielleicht waren die früheren Paradigmen einschränkend. Es gibt Gründe in der Architektur und in den Daten. Wir haben auf dieser Ebene viele Versuche unternommen.
Frage: Ich verstehe, dass Mahe VLA ein technologisches System und kein einzelnes Modell ist. Beispielsweise ist Mind-Edge ein Modell auf der Geräteebene, das für das intelligente Cockpit dient. Gibt es in den aktuellen Modellen der autonomen Fahrtechnik noch den "L" (Language - Sprache) Teil?
Zhan Kun: Aktuell besteht bei den Architekturen der autonomen Fahrtechnik ein gemeinsamer Trend, nämlich die Integration von VLA (Visuelles-Sprache-Handlungs-Modell) und World Model (Weltmodell).
Langfristig wird sich niemand von dieser Richtung entfernen. Egal, ob man VLA oder World Model entwickelt, in beiden wird Prompt (Hinweis) in der Sprache verwendet. Also gibt es auf jeden Fall Sprache, es geht nur darum, wie man die Sprache einsetzt.
Für die Maschinenintelligenz halte ich die Vision Based (visueller Ansatz) für vernünftiger. Es ist für das Verständnis des Raums, die Wahrnehmung des 3D-Raums und den Service der Umgebung besser geeignet. Sprache ist sicherlich nützlich, um die Umgebung, den Verkehr, Anweisungen und komplexe Denkprozesse und Entscheidungen zu verstehen.
Langfristig könnte ein auf Vision und Sprache basierendes Grundmodell der zukünftige Trend sein.
Xie Yan: Wenn Sie in Richtung L3 und L4 gehen und generalisiertere Probleme lösen müssen, muss Ihr Modell über menschliche Denkfähigkeiten verfügen. Die Wichtigkeit der Sprache wird immer deutlicher, und das ist auch der Grund, warum in Zukunft viel Rechenleistung benötigt wird.
Wenn ein Modell nur über Vision und Action (Sicht und Handlung) verfügt und viele Daten hat, weiß es in Situationen außerhalb des Datenbestands nicht, was es tun soll. Selbst wenn ein Tier alle gängigen Situationen gelernt hat, weiß es in einer noch nie gesehenen Situation nicht, welche Entscheidung richtig ist.
Wir glauben, dass je weiter man in Richtung L3 und L4 geht, desto näher man den Problemen hinter den 90%, 95% und 98% kommt - die Probleme, die man noch nie gesehen hat. Dafür muss das Modell über menschliche Denkfähigkeiten verfügen. Die Quelle für die Fähigkeit, wie ein Mensch zu schließen und zu denken, ist das Sprachmodell. Wenn ein Polizist eine Geste macht, müssen Sie verstehen, ob er Ihnen das Weiterfahren erlaubt oder nicht. Das ist kein Problem, das man durch Datensammlung oder -generierung lösen kann.
Frage: Mit dem Anstieg der Flottengröße von Li Auto hat sich aus internen Perspektiven die Grenznutzeneffizienz der Daten verringert? Wie definieren wir wertvolle Daten?
Zhan Kun: Erstens muss die Datenmenge ausreichend groß sein. Im Wesentlichen hoffen wir, mehr Corner Case (Sonderfälle) zu sammeln. Zurzeit gibt es viele Methoden, um auf dem Fahrzeug ein gutes neural trigger (Neuronales Trigger) zu entwickeln, um zu entscheiden, ob es sich um eine schwierige oder einfache Situation handelt, und diese wichtigen Daten zurückzuschicken. Das ist auch einer der Gründe, warum Tesla so stark ist.
Zweitens muss die Qualität hoch sein, insbesondere die Qualität der Handlungen. Zurzeit konvergieren die Ansätze immer mehr in Richtung End-to-End. Egal, ob man VLA (Visuelles-Sprache-Handlungs-Modell), World Model (Weltmodell) oder Vision-Action (Visuelles-Handlungs-Modell) entwickelt, man muss die Handlungen kennen. In diesem Fall ist die Qualität der Handlungen sehr wichtig, insbesondere die Sauberkeit und Konsistenz der Handlungen.
Was die Grenznutzeneffizienz nach dem Anstieg der Datenmenge angeht, so wird es, solange das Modell verbessert wird und wir uns dem 100%-Niveau nähern, immer eine "Logarithmische Kurve" sein. Die Effizienz wird langsam abnehmen und nicht linear steigen. Das gilt für alle Unternehmen, die mit KI arbeiten. Obwohl die Wirkung der Datenkonvergenz tatsächlich im späteren Verlauf langsamer wird, hoffen wir, durch die Skalierung die Geschwindigkeit zu erhöhen.
Frage: Der Mahe M100 kann in verschiedenen KI-Szenarien eingesetzt werden. In fünf Jahren oder noch weiter in Zukunft, in den nächsten zwei Produktgenerationen, ist es möglich, dass das Rechenzentrum im Inneren von Li Auto-Fahrzeugen vollständig von den selbst entwickelten Mahe-Chips betrieben wird?
Xie Yan: Obwohl es in der Branche den Begriff "Kabine und Fahrerassistenz integriert" gibt, denken wir, dass der Kern der Integration der KI-Rechenleistung ist. Die Integration anderer Teile ist nicht so wichtig. Denn das Cockpitsystem und das KI-gestützte Fahrerassistenzsystem können vollständig unabhängig voneinander funktionieren, aber die KI-Rechenleistung kann zusammengefasst werden, was die Effizienz der Verteilung erheblich erhöht.
Das Endziel unseres Roadmaps ist ein KI-Rechenzentrum im Fahrzeug, in dem alle KI-Aufgaben berechnet werden können. Ähnlich wie bei einem Laptop, bei dem die KI-Berechnungen nicht auf dem Laptop, sondern auf einem Token Provider Server (Token-Zuführungsserver) durchgeführt werden, gibt es im Fahrzeug auch einen Token Server (Token-Server).
Die Vorteile dieses Token Servers: Erstens ist die Effizienz sehr hoch. Zweitens können verschiedene Aufgaben voneinander isoliert werden, so dass sie sich nicht gegenseitig beeinflussen. Beispielsweise kann die Bestimmtheit der Fahrerassistenzaufgaben - sei es der Arbeitsspeicher oder die Bandbreite - sichergestellt werden, dass sie nicht von anderen Aufgaben gestört wird. Dies kann nur durch die gemeinsame Entwurfsplanung von Software und Hardware erreicht werden.
Frage: Ist es, weil der M100 ein AI-Inferenz-Chip mit Datenfluss-Architektur ist, dass er im Vergleich zu den autonomen Fahr-Chips anderer Hersteller weniger Bandbreite, aber mehr Speicher auf dem Chip benötigt?
Xie Yan: Unsere Anforderungen an die Bandbreite sind niedriger, aber das ist nicht der direkte Grund für die Größe des SRAM (nicht des Grafikspeichers). Derzeit ist HBM (High Bandwidth Memory) sehr beliebt, und viele Menschen denken, dass je höher die Bandbreite, desto besser. Die Berechnung, die Bandbreite, der SRAM usw. erfordern alle Transistoren, und die endgültige Entwurfsplanung ist eine Entscheidung, die unter Berücksichtigung von Kosten und Gesamtleistung getroffen wird.
Es ist weder vernünftig noch professionell, verschiedene Architekturen nur anhand einiger Indikatoren zu vergleichen. Das ist wie ein Boxkampf: Größere Körpergröße und höheres Gewicht haben ihre Vorteile, aber das Ergebnis des Kampfes wird nicht von einem einzigen Indikator bestimmt.
Frage: Warum haben die aktuellen Lösungen mit hoher Rechenleistung, wie die von NVIDIA, XPeng und Li Auto, keine Chip-Level-Integration von Kabine und Fahrerassistenz vorgenommen, während Qualcomm dies bei Chips mit niedriger Rechenleistung getan hat? Warum ist das so?
Xie Yan: Im Wesentlichen sind die Kabine und die Fahrerassistenz zwei unabhängige Systeme. Insbesondere bei der Entwicklung von L3 zu L4 erfordert die Fahrerassistenz ein System mit höherer Bestimmtheit, bei dem der Arbeitsspeicher und die Rechenressourcen exklusiv sind. In diesem Fall verliert die Integration viel an Bedeutung. Denn die Ressourcen können nicht in Echtzeit umgeschaltet werden, was die Bestimmtheit verringern würde. Wenn die Ressourcen immer mehr exklusiv werden, hat die Integration wenig Wert - man verbindet nur die Chips, aber die Ressourcen bleiben getrennt, was nicht zu Kosteneinsparungen führt und sogar die Effizienz beeinträchtigen kann.
Wenn Sie sich die aktuellen Systeme mit integrierter Kabine und Fahrerassistenz ansehen, werden sie immer noch getrennt sein. Heute ist es nicht möglich, zwischen verschiedenen Aufgaben zu wechseln. Wenn dies nicht möglich ist, bringt die Kombination von zwei Chips zu einem Chip möglicherweise keine Verringerung der Transistoren, sondern nur eine Einsparung bei der Verkapselung. Für Chips der Mittel- und unteren Klasse kann man diese Kosten sparen, aber es ist nicht viel.
Meine Meinung ist, dass je weiter die Fahrerassistenz in Richtung höherer Stufen entwickelt wird, desto weniger Sinn macht die Integration von Kabine und Fahrerassistenz. Wenn man die Chips näher zusammen bringt und eine integrierte Lösung mit kleinerem Volumen auf einer Platine baut, ist das möglich. Es muss nicht unbedingt ein einziger Chip sein, sondern es können auch mehrere Chips zusammen verwendet werden.
Frage: Welche Voraussetzungen sind für die Eigenentwicklung von Chips erforderlich, wie beispielsweise Verkaufszahlen, Umsatz und Forschungs- und Entwicklungsausgaben? Welche Bedingungen sind erforderlich, damit die Chips kontinuierlich verbessert werden können, angesichts der schnellen Iterationsgeschwindigkeit der autonomen Fahrtechnik?
Xie Yan: Die Vorinvestitionen für die Chipentwicklung sind tatsächlich beträchtlich, möglicherweise mehrere hundert Millionen Euro pro Jahr.
Die erste Voraussetzung ist, dass ein bestimmter Umsatz erreicht wird. Für Automobilhersteller sollte der Jahresumsatz über 100 Milliarden Euro liegen, und die Forschungs- und Entwicklungsausgaben sollten mindestens 10% betragen. Dann können mehrere Milliarden Euro pro Jahr für die Chipentwicklung investiert werden. Die zweite Voraussetzung ist, dass die Probleme, die durch die Chipentwicklung gelöst werden, die Produktleistung verbessern können.
Viele Menschen sagen, dass Chips eine große Absatzmenge haben müssen. Tatsächlich hängt die Kosten der Chips von ihrer Fläche ab. Ein Fahrerassistenz-Chip in einem Fahrzeug, wie beispielsweise der Livis, besteht aus zwei Mahe M100-Chips, die zusammen 800 Quadratmillimeter bedecken. Ein Hochleistungs-Smartphone-Chip hat etwa 100 Quadratmillimeter Fläche. Somit entspricht die Fläche eines Fahrerassistenz-Chips in einem Fahrzeug der Fläche von acht Smartphone-Chips.
Wenn man die Fläche der Wafer für mehrere hunderttausend Fahrzeuge berechnet, ist sie sehr groß und kann die Kosten aufrechterhalten. Daher kann man die Kosten nicht nur anhand der Anzahl der Chips messen.
Frage: Wo liegt die Schwierigkeit des dynamischen Datenfluss-Compilers? Wie lange hat es gedauert, diese Schwierigkeit zu überwinden?
Xie Yan: Die Arbeit an dem Compiler beginnt bereits vor dem Tape-out, sogar bei der Entwurfsplanung. Vor dem Tape-out wurden bereits viele Modelle erfolgreich getestet.
Der Datenfluss hat eine völlig andere Architektur. Die Probleme, die es zu lösen gilt, sind ähnlich denen, die Supercomputer oder große Computerkollektive lösen müssen. Wenn die Anzahl der Computer auf mehrere hunderttausend oder Millionen Kerne ansteigt und diese miteinander kommunizieren und zusammenarbeiten müssen, kann es keinen zentralen Administrator geben, der Millionen von Kernen verwaltet. Die Scheduling-Methode der traditionellen von Neumann-Architektur ist bei dieser Skala nicht anwendbar. Dies ist ein Problem der Parallel-Scheduling auf sehr großer Skala.