Ist das Weltmodell die ultimative Lösung für das automatische Fahren?
Bildquelle: Visual China
Text | Xiao Man
Redaktion | Li Qin
In den letzten zwei oder drei Jahren haben Automobilhersteller bei der Diskussion über intelligentes Fahren immer wieder verschiedene neue technische Begriffe erwähnt.
Das Weltmodell ist nach dem End-to-End-Ansatz und VLA das trendigste Wort im Bereich des intelligenten Fahrens. Verschiedene Unternehmen haben ihm auch neue Fassaden verpasst – XPeng hat das "Weltbasismodell" vorgestellt, NIOs Modell heißt "End-to-End-Weltmodell" und Chinas Modell heißt "Weltverhaltensmodell" (WA). Neben diesen Firmen arbeiten auch Horizon, Li Auto, Yuanrong Qixing und Momenta an Weltmodellen.
Aber nur anhand ihrer Pressesprecher ist es schwer zu unterscheiden, ob die Weltmodelle, die sie erwähnen, wirklich das Gleiche sind. Welche Probleme löst es tatsächlich, und an welcher Stelle in der Architektur des intelligenten Fahrens wird es eingesetzt?
Betrachtet man den Begriff "Weltmodell" in einem breiteren Kontext, so ist es im Wesentlichen eine Technologie, die die reale Welt in einer virtuellen Welt nachbildet, sodass Künstliche Intelligenz die reale Welt wie ein Mensch verstehen kann und die physikalischen Gesetze, die kausalen Beziehungen zwischen Dingen und die Dynamik der Umwelt erkennt.
Die meisten Wissenschaftler und Technologieunternehmen betrachten das Weltmodell als ein Schlüsselstück auf dem Weg zur "Künstlichen Intelligenz für die physische Welt". Die Professorin Fei-Fei Li von der Stanford University hat einmal darauf hingewiesen, dass räumliche Intelligenz die nächste Dekade der KI sein wird und dass das Weltmodell eine Schlüsseltechnologie für die Entwicklung räumlicher Intelligenz ist.
Wissenschaftler und Technologieunternehmen, die an der Spitze der Branche stehen, befinden sich noch in der Erkundungsphase, aber die chinesische Automobilindustrie hat bereits mit verschiedenen neuen Konzeptbegriffen ihre Plätze eingenommen.
Tatsächlich bestehen die "Weltmodelle", über die in der Branche des intelligenten Fahrens heute gesprochen wird, nur in der Nomenklatur. Technologisch gesehen gibt es keine großen Unterschiede. Es handelt sich nur um ein Upgrade des bestehenden Simulationswerkzeugs. In einer virtuellen Welt mit höherer Wiedergabetreue, höherer Auflösung, vielfältigeren Szenarien und größerer Freiheit werden die Probleme der End-to-End-Modelltests und -validierungen gelöst. All dies dient dazu, ein effektiveres und menschenähnlicheres End-to-End-Modell für das intelligente Fahren zu trainieren.
Mit anderen Worten, Hersteller von intelligenten Fahrzeugen und Automobilunternehmen schaffen nicht wirklich eine vollständige digitale physische Welt, sondern bauen mit der Idee des Weltmodells einen Simulator.
Vielleicht haben die verschiedenen Unternehmen unterschiedliche Erwartungen an das Weltmodell, aber soweit wir wissen, wird das Weltmodell in der Branche des intelligenten Fahrens bisher nur in der Cloud eingesetzt und nicht in Autos.
Die Verbreitung des End-to-End-Ansatzes hebt die Schwächen des Simulators hervor
In den letzten zwei oder drei Jahren haben die führenden Anbieter von intelligenten Fahrkonzepten vom Regelstack zum AI-gesteuerten Ansatz übergegangen und in "Form" eine Einheitlichkeit erreicht. Wahrnehmung, Vorhersage und Planung werden so weit wie möglich in ein Netzwerk integriert, dazu kommen größere Modelle und höhere Rechenleistung. Wie die Automobilhersteller es in ihren Pressesprechern gerne ausdrücken, "sieht das intelligente Fahren nach dem End-to-End-Ansatz eher aus wie ein Mensch am Steuer".
Aber in der praktischen Anwendung tritt ein kontra-intuitives Phänomen auf: Die neue OTA-Version nach dem End-to-End-Ansatz ist nicht unbedingt besser, sondern kann sogar "zurückfallen".
Das Kernproblem liegt nicht in einer Verschlechterung des Modells, sondern darin, dass die AI-gesteuerte Steuerung die Bewertung und Regression erschwert.
Damals glaubten viele Fachleute im Bereich des intelligenten Fahrens, dass das Auto genauso gut fahren würde wie ein Mensch, wenn man das Frontend gut genug trainiert. Dieser Ansatz war nicht wirkungslos, und die frühen Ergebnisse des End-to-End-Ansatzes haben viele Fachleute beeindruckt. Aber die "Black-Box"-Form des End-to-End-Ansatzes hat auch Nebenwirkungen. Wenn das Modell fehlerhaft ist, ist es für die Entwickler schwierig zu verstehen, warum es fehlerhaft ist und wie man beweisen kann, dass es beim nächsten Mal nicht erneut fehlerhaft sein wird.
Die Qualität des Modells hängt nicht nur davon ab, "ob es groß genug trainiert ist und genug Daten hat", sondern auch davon, wie man Probleme erkennt, definiert und validiert. Die Hersteller haben allmählich erkannt, dass sie einen besseren Simulator brauchen, um die Leistung des Modells in der Validierungsphase zu bewerten.
Die meisten führenden Anbieter haben Weltmodelle als Simulatoren entwickelt. Um die Li Auto VLA in einer Simulationsumgebung für das verstärkte Lernen zu nutzen, hat Li Auto 2025 ein Fahrweltmodell vorgeschlagen, das die Trajektorien des eigenen Fahrzeugs und anderer Fahrzeuge enthält und als Bewertungssystem fungiert. XPeng hat zwar nur den technischen Begriff "Weltbasismodell" erwähnt, der im Wesentlichen nichts mit dem Weltmodell zu tun hat, aber soweit 36Kr Auto weiß, nutzt XPeng auch Weltmodelle für Simulations- und Testzwecke, um die Algorithmusleistung neuer Modelle zu bewerten.
Die Verbreitung des End-to-End-Ansatzes hat die Schwächen traditioneller Simulatoren aufgezeigt. "Als der End-to-End-Ansatz noch nicht so weit verbreitet war, war die Validierungskosten nicht so hoch, und man konnte das System noch abschnittsweise validieren. Jetzt, nachdem der End-to-End-Ansatz eingesetzt wird, kann man das System nicht mehr abschnittsweise validieren, und das Problem des Simulators tritt in den Vordergrund." sagte ein Branchenentwickler.
In der Regelzeit diente die Simulation von Automobilherstellern in der Regel zwei Zwecken: Erstens, das Problem der Halterung in der Mitte des Wegs wurde wiederholt, indem die Abschnitte, in denen es auf der Straßenfahrt zu einem Unfall kam, zurückgespielt wurden. Zweitens, der Simulator wurde verwendet, um die Datenvielfalt von Eckenfällen zu erhöhen. In dem Simulator wurden einige typische Kreuzungen, überquerende Fußgänger und einscherende Fahrzeuge gesetzt, und das System wurde einmal ausgeführt.
Damals übernahm der Simulator eher die Rolle einer "Lupe". Aber nach dem End-to-End-Ansatz ist es für das Modell schwierig, die Verantwortung aufzuteilen, und es ist schwierig, systematisch feinere und kontrollierbare Eckenfälle zu generieren, und es ist noch schwieriger, die erforderlichen massiven geschlossenen Validierungen des End-to-End-Ansatzes zu unterstützen – und das ist der Grund, warum das Weltmodell eingeführt wurde.
Im Zeitalter des End-to-End-Ansatzes ist das Weltmodell der "Trainer" des intelligenten Fahrmodells
"Derzeit besteht ein gewisser Abstand zwischen der Leistung der Weltmodelle chinesischer Automobilhersteller und Tesla, aber es ist weniger als ein Jahr Unterschied." sagte ein Branchenmitarbeiter.
Tesla hat nicht den Begriff "Weltmodell" verwendet, sondern spricht von einem "Welt-Simulator" (der stellvertretende Vorsitzende des Teslas Autopilot, Ashok Elluswamy, hat diesen Begriff erstmals auf der ICCV im vergangenen Jahr erwähnt). Dieser Simulator wird auf der Grundlage eines massiven Datensatzes trainiert, den Tesla selbst erstellt hat. Basierend auf dem aktuellen Zustand und der nächsten Aktion generiert er den zukünftigen Zustand. Dadurch wird ein geschlossener Kreis mit dem End-to-End-Basismodell im Fahrzeug hergestellt, um die reale Leistung zu bewerten.
Teslas neuronales Netzwerk für die geschlossene Kreissimulation (Bildquelle:
Ein Branchenmitarbeiter hat darauf hingewiesen, dass Tesla eher versucht, die Welt mit neuronalen Netzwerken "anzupassen". Der Rendering-Prozess wird durch Berechnungen generiert, um die explizite Anhäufung physikalischer Regeln so gering wie möglich zu halten. Die Materialbibliothek ist nicht vollständig von Menschen vorab definiert, sondern behält ein gewisses Wahrscheinlichkeitsgewicht und einen Kombinationsraum. Der Vorteil davon ist, dass das Modell eine stärkere Generalisierungsfähigkeit haben kann.
Die meisten chinesischen Automobilhersteller gehen einen anderen, "kontrollierteren" Weg. Ein Lieferant, der mit 36Kr Auto sprach, sagte, dass Li Auto die 3D-Gaußsche Rekonstruktion verwendet – dies ist auch eine der Methoden, die derzeit von den meisten Automobilherstellern eingesetzt werden.
Egal welcher Weg gewählt wird, führt das Weltmodell in der Ingenieurpraxis schließlich an die gleiche Stelle: Das Weltmodell wird von Automobilherstellern als "Validierungs- und Gegenbeweissystem" im Zeitalter des End-to-End-Ansatzes verwendet. Es wird in der Cloud verwendet, um Szenarien, die in der realen Fahrt auftreten können, wiederzugeben, zu verändern und zu erweitern, um zu überprüfen, ob die Ausgabe des großen Modells im Fahrzeug stabil und reproduzierbar ist. Dadurch wird die Frage "wo es fehlgeschlagen ist und warum" wieder in eine nachverfolgbare Beweisstrecke umgewandelt.
Das Weltmodell spielt die Rolle eines Trainers. Ein guter Trainer kann besser Athleten ausbilden. "Je stärker das Weltmodell in der Cloud wird, desto stärker sollte theoretisch die Leistung des Modells am Fahrzeugende sein." sagte ein Entwickler.
Die Kernfähigkeiten des Weltmodells liegen hauptsächlich in zwei Aspekten: Erstens, die digitale Modellierung und Abstraktion der physischen Welt. Zweitens, die generierung von vernünftigen Vorstellungen und Vorhersagen über die physische Welt auf der Grundlage dieser Modellierung. Beispielsweise kann man anhand eines gegebenen Bildes vorhersagen, wie sich die Welt in Zukunft verändern wird.
Die Qualität des Weltmodells hängt davon ab, ob es in der Cloud genügend realistische und vielfältige Daten generieren kann. "Wenn Automobilhersteller nur die gesammelten realen Daten für die Simulation verwenden, dann tun sie offensichtlich nicht das, was ein Weltmodell ist. Sie tun nur eine Ablaufsteuerung für die Wiedergabe von Daten." sagte ein Produktmanager eines Lieferanten.
Das Weltmodell muss die Betriebsweisen der Welt aus den Daten der physischen Welt lernen. Daher hat die Qualität der Trainingsdaten des Weltmodells einen erheblichen Einfluss auf die Qualität der generierten Modelle. Mao Jiming, der Leiter der Produktlinie von Jiajia Vision, hat erwähnt, "Bei einem Generativmodell wie dem Weltmodell wird das generierte Ergebnis schließlich der Merkmalsverteilungsregel der Eingabedaten entsprechen. In der realen kommerziellen Nutzung des Weltmodells haben wir festgestellt, dass, wenn die Datenqualität nur 60 Punkte erreicht, die Qualität der generierten Daten des Weltmodells möglicherweise nur 55 Punkte beträgt."
Basierend auf dem Weltmodell können Automobilhersteller in der Cloud Szenarien in unbegrenzter Anzahl aus verschiedenen Dimensionen generieren und Videos als Trainingsdaten nach Anweisungen generieren. "Die Effizienz ist viel höher als die der realen Datenerfassung und anschließenden Training. Die Iterationsgeschwindigkeit des Modells ist auch um Größenordnungen schneller." sagte ein Entwickler eines Lieferanten.
Aber all dies sind idealisierte Ergebnisse. "Im Vergleich zu den Simulatorsystemen für das intelligente Fahren ist das Weltmodell bereits ein großer Schritt vorwärts, wenn man nur die offline gesammelten Daten für die Validierung verwenden kann. Aber es ist immer noch weit von einem idealen Simulatorsystem entfernt."
Der Algorithmus des Weltmodells ist noch nicht reif, und es gibt viele "Illusionen"
Die Branche befindet sich derzeit allgemein in der "Anfangsphase".
Ein Entwickler eines Automobilherstellers hat 36Kr Auto mitgeteilt, dass die chinesischen Hersteller auf der Grundlage des Weltmodells maximal 30 - 60 Sekunden lange Videosequenzen generieren können, aber die Konsistenz der beweglichen Objekte ist nicht gut. Sowohl die zeitliche und räumliche Konsistenz als auch die Mehrperspektivkonsistenz weisen erhebliche Probleme auf.
Das Weltmodell basiert auf einem generativen Modell, und generative Modelle bergen von Natur aus das Risiko von "Illusionen". "Das schwierigste an dem Weltmodell derzeit ist, wie man sicherstellen kann, dass das generierte Ergebnis realistisch ist. Wenn man eine Person generiert, wie kann man sicherstellen, dass ihr Verhalten und ihre Bewegungstrajektorie in der realen Welt möglich sind." sagte ein Produktmanager eines Lieferanten. "Wenn das Weltmodell fehlerhafte Ergebnisse generiert, wird das Modell falsche Dinge lernen, was wiederum dazu führt, dass das Modell, das im Fahrzeug eingesetzt wird, sehr schlecht funktioniert."
Ein extremer Fall wäre, wenn die im Cloud generierten Autos quer fahren würden, würde das Modell annehmen, dass ein Auto links vorne plötzlich rechts vorne erscheinen würde. Während der Fahrt könnte das Modell möglicherweise eine Bremsaktion ausführen.
Wenn ein Simulator nicht in der Lage ist, die entscheidenden kausalen Beziehungen in der realen Welt nachzustellen, wie z.B. der Einfluss einer rutschigen Straße auf die Bremsstrecke, die Fehlermöglichkeit bei der Erkennung von stehenden Objekten bei Gegenlicht oder die Strategie des anderen Fahrzeugs beim Einfahren in eine andere Spur, dann können die generierten "Eckenfälle" falsch sein. Wenn man an falschen Problemen optimiert, verschwendet man die Forschungs- und Entwicklungsressourcen auf Phantomprobleme.
Für viele Menschen liegt die Schwachstelle des Weltmodells in den Daten und der Rechenleistung. Aber Xia Zhongpu, der ehemalige Leiter des "End-to-End"-Modells für die Hilfssysteme von Li Auto, stimmt eher der Meinung von Lecun zu: "Es gibt keine großen Durchbrüche auf der algorithmischen Ebene des Weltmodells. Die selbstüberwachte Training von Bildmodellen hat noch keine so reibungslose Methode gefunden wie die Sprachmodelle."
Einer der Gründe, warum Sprachmodelle so schnell skalieren konnten, ist, dass Sprache selbst eine hohe Informationsdichte hat und jedes Wort eine klare semantische Beschränkung trägt. Bildinformationen haben eine niedrige Informationsdichte, und für die "Fahrentscheidung" macht nur ein sehr kleiner Teil der Informationen Sinn.
Beispielsweise muss das Modell nicht die Trajektorie des Autos hinter ihm weit weg vorhersagen, noch die Veränderung eines Gebäudes in der Ferne. All dies sind Rauschdaten. Aber es muss vorhersagen, ob das vorausfahrende Auto in seiner eigenen Spur plötzlich stark bremst, ob ein anderes Auto in die Spur einscheren wird oder ob ein Fußgänger plötzlich die Straße überqueren wird. Das Modell muss zuerst wissen, "wo es seine Aufmerksamkeit richten soll".
"Derzeit kann der Algorithmus des intelligenten Fahrens nicht genügend nützliche Bildinformationen für die Fahrt extrahieren." sagte Xia Zhongpu. Ein Bild kann Millionen von Pixeln haben, aber nur etwa 20 Pixel sind mit der Entscheidung verbunden. Der Rest ist Rauschen. Das Modell muss zuerst lernen, das 1