Huawei und Xiaomi: Gleiche Technologische Wege?

Sogar Huawei integriert VLA.

Vor der Veröffentlichung von ADS 5 hat Huawei in Zusammenarbeit mit der Shanghai Jiao Tong University ein solches Ergebnis veröffentlicht:

Ein Framework, ein 2B-Modell, die Vereinigung von VLA und Weltmodell.

Dies bedeutet, dass Huawei neue technologische Richtungen erkundet.

Jin Yuzhi, CEO von Huawei's Automobil-Business Unit, hat zuvor gesagt, dass VLA ein "Kunstgriff"-Lösungsansatz sei und dass nur die von Huawei gewählte WA (Weltverhaltensmodell)-Richtung die automatisierte Fahrweise ermöglichen könne.

Gerade im Moment, als ADS 5 bald erscheinen wird, hat Huawei an dieser Arbeit teilgenommen und versucht, VLA und Weltmodell zu integrieren. Diese Richtung stimmt mit der von vielen Akteuren überein, wie etwa Xiaomi und Li Auto.

Huawei und die Shanghai Jiao Tong University vereinigen VLA und Weltmodell

Die Autorengruppe ist der Meinung, dass die beiden Hauptparadigmen VLA und Weltmodell jeweils ihre eigenen Schwächen haben.

VLA ist gut in der Inferenz. Sobald es die Straße sieht, weiß es, wie es fahren soll. Das Problem ist jedoch, dass VLA nicht vorhersagen kann, wie sich die Umgebung in der nächsten Sekunde ändern wird, nachdem es eine Entscheidung getroffen hat. Es hat eine starke Fähigkeit, die Gegenwart zu verstehen, aber eine schwache Fähigkeit, die Zukunft vorherzusagen.

Das Weltmodell hat eine gute Vorhersagefähigkeit. Es kann anhand der momentanen Straßenlage die Änderung der Umgebung in der nächsten Sekunde vorhersagen. Aber es gibt auch ein Problem: Es ist nur für die Vorhersage verantwortlich und führt keine Rücküberprüfung und Inferenz der Vorhersageergebnisse durch, um festzustellen, ob das Ergebnis sicher ist.

Der Schlüssel dieser Studie besteht also nicht darin, die Fähigkeiten von VLA oder Weltmodell einzeln zu stärken, sondern darin, eine Schleife zwischen "Zukunftsvorhersage" und "Rücküberprüfung der Zukunft" zu bilden.

Um die Stärken beider zu integrieren, hat die Gruppe VLA-World vorgeschlagen. Bei der Ausführung einer Fahraufgabe wird zunächst eine kurzfristige Vorhersage gemacht, um Vorhersagebilder für die nächsten 0,5 Sekunden zu generieren. Dann wird das generierte zukünftige Bild rücküberprüft, um die darin enthaltenen Risiken vorherzusagen. Schließlich werden Fahrentscheidungen und eine Vorhersagebahn für die nächsten 3 Sekunden ausgegeben.

Um die Kette von der Wahrnehmung über die Vorhersage bis zur Rücküberprüfung zu schließen, hat die Gruppe einen dreistufigen Trainingsablauf entwickelt.

Zunächst hat die Gruppe Qwen2-VL-2B als Basis-Modell gewählt und dann eine Prätraining für die Vorhersage von zukünftigen Bildern aus mehreren Ansichten durchgeführt. Dabei wurde die Konsistenz der generierten Bilder aus verschiedenen Perspektiven erzwungen, um die visuelle Generierungsfähigkeit des Modells zu aktivieren.

Im zweiten Schritt wird das Modell überwacht und feinjustiert. Mit dem nuScenes-GR-20K-Datensatz wird ein Mehrfachaufgaben-Mischtraining durchgeführt, um Fahrkonzepte in das Modell einzubringen.

Schließlich wird das Modell mit dem GRPO-Algorithmus einer verstärkten Lernphase unterzogen, um die Fähigkeiten des Modells in der erweiterten Inferenz und Entscheidung zu stärken. Die Belohnungsfunktion besteht aus fünf Teilen:

Formatbelohnung: Sicherstellung einer standardisierten Ausgabestruktur
Kurzfristige Vorhersagebelohnung: Förderung einer genauen kurzfristigen Bahnvorhersage
Visuelle Beschränkungsbelohnung: Sicherstellung einer korrekten und vernünftigen Anzahl von generierten visuellen Token
Aktionsbelohnung: Bewertung von Entscheidungen auf hoher Ebene basierend auf dem F1-Score
Bahnbelohnung: Sicherstellung der Genauigkeit der Bahn und der kinematischen Konsistenz

Durch die obigen Methoden hat das Modell sowohl die Fähigkeit zur Vorhersage und Vorstellung als auch zur Rücküberprüfung und Inferenz erlangt. Darüber hinaus wurde das Skalierungsgesetz für automatisierte Fahrmodelle verifiziert.

Die Gruppe hat festgestellt, dass nach dem Wechsel des Basis-Modells auf 7B der L2-Fehler, d. h. die Differenz zwischen dem vorhergesagten Wert und dem tatsächlichen Wert des Modells, deutlich verringert wurde.

Allerdings gibt es bei dieser Arbeit noch einige potenzielle Probleme. Beispielsweise hat das generierte zukünftige Bild nur eine Auflösung von 128X192, was nicht sehr scharf ist und möglicherweise einige Szeneninformationen verliert, was die Entscheidungen des Modells beeinträchtigen kann.

Außerdem ist die Inferenzkette des aktuellen Modells relativ lang, was möglicherweise die Echtzeitfähigkeit der Fahraufgabe beeinträchtigt.

Abschließend eine kurze Einführung in die Autorengruppe. Diese Studie wurde in Zusammenarbeit von der Shanghai Jiao Tong University und Huawei durchgeführt. Die erste Autorinstitution ist das Intelligenzforschungszentrum der Shanghai Jiao Tong University. Die Hauptautoren Wang Guoqing, Ren Xiangxuan und Tang Pin sind alle Doktoranden der Shanghai Jiao Tong University.

Der Korrespondenzautor Ma Chao ist ein nationaler ausgezeichneter junger Wissenschaftler, Professor und Doktorvater an der Shanghai Jiao Tong University. Seine Arbeiten wurden in Google Scholar über 14.000 Mal zitiert. Er hat lange Zeit mit Huawei zusammengearbeitet, und seine Forschungsergebnisse wurden zuvor in Huaweis Da Vinci-Chip und der Assistenzfahr-MDC-Plattform umgesetzt.

Diesmal haben sie in Zusammenarbeit mit Zhao Guodongfang und Feng Bailan aus Huaweis Noah's Ark Lab VLA-World vorgeschlagen.

Zur Integration

Die Richtung, auf die dieses Ergebnis setzt, scheint in letzter Zeit allmählich zu einem Branchentrend zu werden.

Beispielsweise hat Zhan Kun, der Leiter von Li Auto's VLA, vor kurzem auf der NVIDIA GTC in seinem Vortrag MindVLA-o1 vorgestellt. Durch die Einführung eines prädiktiven versteckten Weltmodells kann das Modell die Szenenänderungen in den nächsten Sekunden vorhersagen und bessere Entscheidungen treffen.

Fast gleichzeitig hat Chen Long, der Leiter von Xiaomis XLA-Kognitionsmodell, auch angegeben, dass Xiaomis neuestes XLA VLA und Weltmodell integriert hat und die Änderungen des aktuellen Szenarios durch die Inferenz im latenten Raum ableitet.

Automobilhersteller setzen auf Modell-Ebene um und fördern die Integration von VLA und Weltmodell. Zulieferer haben auch aus einer breiteren Branchenperspektive diesen Trend beobachtet.

Xie Chen, der Gründer von Guanglun Intelligence, einem Anbieter von Dateninfrastruktur, hat kürzlich in einem Interview angegeben, dass viele Kunden Weltmodelle als Basismodelle nutzen, um die Fähigkeiten von VLA zu verbessern.

Die Bewertungsgrundlagen der beiden Richtungen werden auch integriert. Beispielsweise hat ein Unternehmen namens ENACT auf der Grundlage des VLA-Bewertungssystems ein Bewertungssystem für Weltmodelle entwickelt.

"Wenn die Bewertungskriterien für zwei Dinge immer ähnlicher werden, werden diese beiden Dinge möglicherweise in Zukunft dasselbe sein"

Link zur Studie:

https://arxiv.org/pdf/2604.09059v1

Referenzen:

https://valser.org/article-729-1.html

https://www.bilibili.com/video/BV1sLX9B4EqD

https://www.bilibili.com/video/BV148w9zJEyh

https://www.21jingji.com/article/20260413/herald/1b037cb81459b85b426769d75c3bcf35.html

Dieser Artikel stammt aus dem WeChat-Account "Intelligent Car Reference". Autor: Yifan. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Huawei und Xiaomi gehen den gleichen technologischen Weg.

Huawei und die Shanghai Jiao Tong University vereinigen VLA und Weltmodell

Zur Integration