Die Weltmodelltechnologie ist hier: Alte Fahrerassistenzchips beginnen zu versagen

Für autonome Fahrzeuge entwickelte Chips: Die Ära der TOPS neigt sich dem Ende zu.

In den letzten Jahren hat es in der Automobilindustrie eine immer deutlicher werdende Veränderung gegeben: Automobilhersteller beginnen selbst, Chips zu entwickeln.

Tesla hat das FSD, das bereits in die fünfte Generation iteriert ist; NIO hat das Shenji NX9031 vorgestellt; XPeng hat den eigenentwickelten KI-Turing-Chip entwickelt; Li Auto hat den Mach M100 hergestellt; BYD, Geely und Momenta werden auch häufig genannt.

Scheinbar handelt es sich um eine Bewegung zur "Ent-Nvidiaisierung".

Aber wenn man nur diese Ebene sieht, ist das zu oberflächlich.

Das eigentliche Problem ist: Das selbstfahrende Modell an sich hat begonnen, sich zu verändern.

Von CNN über Transformer bis hin zu DiT und Weltmodellen - das Modellparadigma wechselt, und die Chip-Logik der alten Ära kann möglicherweise nicht die nächste Generation des autonomen Fahrens bewältigen.

Dies ist der wahre Grund, warum Automobilhersteller erneut eigene Chips entwickeln.

01 Es geht nicht um Einsparungen, sondern um die Kontrollgewinnung

Ob Eigenentwicklung oder externe Beschaffung - scheinbar handelt es sich um eine geschäftliche Entscheidung, im Kern aber um die Beurteilung der technologischen Route.

Die Entscheidung zwischen Eigenentwicklung und externer Beschaffung hängt von der Beurteilung der Fahrerassistenzroute durch die Automobilhersteller ab. Die Entwicklungszeit für Chips ist relativ lang.

Von der vollständigen Definition der Entwurfsziele bis zum Einsatz des Chips in Serienfahrzeugen vergehen 2 - 4 Jahre. Bei ausländischen Herstellern kann es sogar 3 - 5 Jahre dauern.

Das bedeutet, dass Chiphersteller heute bereits auf die technologische Entwicklung in 5 - 8 Jahren setzen.

Wird die Prognose falsch getroffen, wird entweder die Lebensdauer des Chips stark verkürzt oder wird er gar nicht mehr verwendet.

Die Entwicklung von digitalen Automobilchips ist wirklich riskant.

Wenn Automobilhersteller eigene Chips entwickeln, sagen sie in gewisser Weise: Ich weiß besser als die Zulieferer, welche Modelle ich in fünf Jahren laufen lassen werde.

Bei 5-Nanometer- oder sogar 3-Nanometer-Technologie betragen die einmaligen Entwicklungskosten plus die Kosten für die externe Beschaffung von IP mehrere hundert Millionen Yuan. Die einmaligen Entwicklungskosten plus die IP-Lizenzkosten können leicht mehrere hundert Millionen Yuan betragen.

Wenn die Stückzahl nicht ausreicht, ist die Bilanz sicherlich negativ. Aber diese Kosten können in die Gesamtentwicklungskosten aufgenommen werden, und sie können auch den Marktwert erhöhen und die Technologiebranche stärken.

Am Ende ist die geschäftliche Logik stimmig.

Was die technischen Schwierigkeiten betrifft: Mit der Reife der IP-Ökosysteme, der Verbesserung der EDA-Toolketten und dem Auftauchen von Zwischenhändlern wie Socionext, die sich speziell auf die maßgeschneiderte Chipentwicklung für Automobilhersteller konzentrieren, sinkt die Schwierigkeit der Entwicklung rapide.

Der wirklich schwierige Teil hat sich auf den Software-Stack, den Compiler und die langfristige Modellanpassung verlagert - genau das sind die Teile, die Chipzulieferer am schwersten maßgeschneidert für Sie entwickeln können.

02 Das Modell hat sich verändert,

auch die Logik der Chips muss sich ändern

Zunächst muss man verstehen, welche Modelle derzeit im autonomen Fahren eingesetzt werden.

Derzeit gibt es drei Routen für das autonome Fahren.

Eine ist die segmentierte End-to-End-Route, die von den meisten Herstellern gewählt wird. Ein typischer Vertreter ist Uni-AD, dessen Gesamtparameter in der Regel nicht mehr als 500 Millionen betragen.

Die zweite ist die VLA-Route, ein Visuelle-Sprach-Aktions-Modell, das mit einem Diffusions-Aktions-Experten oder MLP kombiniert wird, um die Inferenzeffizienz zu verbessern. VLA ist in der Regel eine MoE-Architektur, und die Parameter liegen in der Regel zwischen 2 und 7 Milliarden.

Die dritte ist die Kombination aus Weltmodell und Diffusions-Aktions-Experten. Bislang gibt es noch keine Serienfahrzeuge, die diese Technologie einsetzen, und es kann länger dauern, als man denkt.

Diese drei Routen haben völlig unterschiedliche Anforderungen an die Chips.

Und kein Hersteller setzt nur auf eine Route.

Alle drei Routen werden verfolgt und beobachtet, niemand wagt es, zurückzufallen.

Hier gibt es eine weit verbreitete Fehleinschätzung: Wenn der TOPS-Wert groß genug ist, kann man alle Modelle bewältigen.

In der CNN-Ära stimmte das tatsächlich. Wenn man die Rechenleistung erhöhte, verbesserte sich auch die Leistung. Aber heute ist es eine hybride Ära von CNN + Transformer, und morgen könnte es die Ära von Transformer + DiT sein.

Ein Chip mit 5000 TOPS kann bei der Ausführung des DiT-Architekturmodells möglicherweise nicht mit einem Konkurrenten mit 300 TOPS mithalten.

Der entscheidende Faktor ist die Speicherbandbreite, die Orchestrierungsfähigkeit, der eng gekoppelte hierarchische Speicher, die SFU und die programmierbare Vektorrechenleistung. Alle diese Faktoren sind wichtiger als der TOPS-Wert.

Die TOPS-Worship ist nicht mehr gültig.

Der Kern des Weltmodells ist die DiT-Architektur

03 Neue Probleme, die das Weltmodell mit sich bringt

Die dritte Route hat sich erst im vergangenen Jahr wirklich formiert. Ihre Kernarchitektur heißt DiT.

Die typische Architektur des Weltmodells. Das obige Bild stammt aus der Studie "Fast-WAM: Do World Action Models Need Test-time Future Imagination?"

Warum ist das Weltmodell so speziell?

Weil DiT eine natürliche Affinität zu Zeitreiheninformationen hat. Es ist nicht nur ein "besserer Bildgenerator", sondern eine Architektur, die speziell für Videos, Animationen, autonome Fahrzeuge und körperliche Intelligenz entwickelt wurde.

Ob es sich um die kombinierte Modellierung, die Vorstellung und anschließende Ausführung oder die "Modellierung während des Trainings und die direkte Ausgabe von Aktionen während der Inferenz" handelt - DiT ist der Kern jedes Weltmodellparadigmas.

Das Problem ist: Es gibt auf dem Markt überhaupt keine Chips, die speziell für die DiT-Inferenz entwickelt wurden.

Der Inferenzprozess des Diffusionsmodells

Der Inferenzprozess des Diffusionsmodells ist außerordentlich komplex.

Herkömmliche Hochleistungs-Chips können nur dichte Tensor-Matrix-Multiplikationen bewältigen, also die Berechnungen innerhalb der Entrauschungs-Schleife.

Die übrigen unregelmäßigen Berechnungen, die Vektor-Codierung und die speicherempfindlichen Aktivierungen sind entweder von der skalaren CPU abhängig oder erfordern Vektor-Algorithmen, was eine schwere Herausforderung für die Chipentwicklung darstellt.

Wenn ein Automobilhersteller beschließt, die Weltmodell-Route zu verfolgen und nicht auf die Entstehung passender Chips auf dem Markt warten möchte, gibt es wahrscheinlich nur eine Möglichkeit: Eigenentwicklung.

04 Die Speicherbandbreite ist der eigentliche Schlüsseleingang

Ein Detail ist es wert, separat erwähnt zu werden.

Unabhängig von der technologischen Route ist eine breitere Speicherbandbreite immer besser.

Das VLM (Visuelle-Sprach-Modell) ist am typischsten - die Decodierungsphase ist die hauptsächliche Zeitverschwendung des VLM, und die Decodiergeschwindigkeit wird vollständig von der Speicherbandbreite bestimmt.

Mit anderen Worten, die Gesamtleistung des VLM ist im Wesentlichen die Leistung der Speicherbandbreite.

Deshalb investiert Tesla bei AI4/AI5 reichlich, um die Speicherbandbreite zu erweitern. Sie wissen genau, wo der eigentliche Engpass liegt.

Die Decodierungsphase der autoregressiven (AR) Architektur ist speichergebunden. Selbst mit hoher Rechenleistung kann die Beschleunigung nicht verbessert werden. Die Systemleistung hängt vollständig von der Speicherbandbreite und der Scheduler-Verzögerung ab. In dieser Phase können sogar einige kleine Modelle auf der CPU schneller laufen als auf der GPU.

Das Diffusionsmodell steht vor einer anderen Herausforderung: Es ist stark von der Batch-Größe (Anzahl der parallelen Verarbeitungen) abhängig. Je größer die Batch-Größe, desto höher ist die Auslastung der Matrix-Multiplikationseinheit. Aber wenn die Batch-Größe zu groß wird, steigen die unregelmäßigen Berechnungen und die Scheduler-Auslastung außerhalb der Entrauschungs-Schleife stark an, und die Gesamtverzögerung nimmt erheblich zu.

Bei fahrzeugspezifischen Szenarien, die auf Verzögerungen empfindlich sind, kann die Batch-Größe in der Regel nur auf 1 - 4 festgelegt werden, selten über 8. Das Ergebnis ist: Die GPU hat zwar eine beeindruckende Rechenleistung auf dem Papier, aber in der Praxis dreht sie oft leer.

05 Große Kerne, mittlere Kerne, kleine Kerne:

Drei Rechenphilosophien

Der Kern des autonomen Fahr-Chips ist der KI-Beschleuniger. Und der Streit um die Route des KI-Beschleunigers ist im Wesentlichen ein Konflikt zwischen drei Rechenphilosophien.

Nach der M×N×K-Dimension einer einzelnen Matrixmultiplikations-ALU gibt es derzeit drei Schulen: Große Kerne, mittlere Kerne, kleine Kerne.

(1) Große Kerne: Extreme Effizienzphilosophie

Ein typisches Beispiel für große Kerne ist die Puls-Array-Architektur.

Google TPU v5/v6 hat eine Größe von 256×256, und jeder Kern hat 65.536 MAC-Arrays. Die Daten fließen nur einmal ein und werden entlang des Pulses weitergeleitet. Der SRAM-Leseaufwand ist weit geringer als bei der kleinen-Kern-Lösung. Bei der Ausführung von Modellen wie LLM/VLM, die eine sehr regelmäßige Form und eine sehr große Batch-Größe haben, ist die Energieeffizienz und der Kosteneffekt weit überlegen.

Typische Vertreter: Google TPU, AWS Trainium, Groq LPU, Intel Gaudi, Tesla HW3.0, NIO Shenji, XPeng Turing, Xinqing, Qualcomm AI100.

TPU v5 hat eine Frequenz von 1,5 GHz pro Array, und die Rechenleistung pro Kern beträgt etwa 197 TOPS; v6 ist auf die Tile-Puls-Architektur aktualisiert, und die Rechenleistung pro Kern erreicht bei derselben Frequenz 918 TOPS. Jede Anweisung treibt 65.536 MACs an, und die Effizienz bei der dichten Matrixmultiplikation ist überragend.

Die Nachteile sind auch offensichtlich. Große Kerne sind eher wie eine riesige Fertigungsstraße - wenn die Datenform ausreichend regelmäßig ist, ist die Effizienz extrem hoch. Sobald die Modellstruktur jedoch spärlich, dynamisch oder unregelmäßig wird, beginnt die Fertigungsstraße zu leeren.

Die Nachteile der großen Kerne sind auch sehr deutlich. Erstens sind sie sehr empfindlich gegenüber der Form des Datenstroms oder der Matrix. Die 256×256-Arrays erfordern, dass M, N und K alle ganzzahlige Vielfache von 256 sein müssen. Wenn dies nicht der Fall ist, sind Vervielfältigungen, Auffüllungen, Layout-Transformationen, Doppelpufferung und Sammeloperationen erforderlich.

Die 256×256-Arrays erfordern, dass M/N/K alle ganzzahlige Vielfache von 256 sein müssen. Bei geringsten Abweichungen sind zahlreiche Vorver

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Die Weltmodelltechnologie ist hier, und die alten Fahrerassistenzchips beginnen zu versagen.

01

Es geht nicht um Einsparungen, sondern um die Kontrollgewinnung

02

Das Modell hat sich verändert,

auch die Logik der Chips muss sich ändern

03

Neue Probleme, die das Weltmodell mit sich bringt

04

Die Speicherbandbreite ist der eigentliche Schlüsseleingang

05

Große Kerne, mittlere Kerne, kleine Kerne:

Drei Rechenphilosophien