Von der Wahrnehmung zur Vorhersage: Wie lässt das Weltmodell den automatisierten Fahrbetrieb die Schwierigkeiten des "erfahrenen Fahrers" überwinden?
Wenn die Fahrzeuge von Waymo täglich durchschnittlich 14.000 Fahrten in San Francisco absolvieren, klingen die Kommentare der Fahrer immer noch ein wenig spöttisch: „Das Auto ist ein bisschen stumpf.“ Es kann präzise vor einer roten Ampel anhalten, versteht aber nicht die plötzlichen Fahrmanöver eines Lieferkurieres; es kann in starker Regenzeit die Fahrstreifenmarkierungen erkennen, erkennt aber nicht die Notfallsituation hinter den Warnblinkern des Vordermanns. Die Technologie des autonomen Fahrens scheint sich der praktischen Anwendbarkeit zu nähern, bleibt aber immer noch hinter einer „Grundverständnis“-Scheibe stecken. Hinter dieser Scheibe verbirgt sich der Evolutionsweg des KI-Modells von „Sehen“ über „Verstehen“ bis hin zu „Vorstellen“. Die Entstehung des Weltmodells (World Model) lässt das autonome Fahren nun beschleunigt in Richtung des Intuitionsdenkens eines erfahrenden Fahrers vorankommen.
Von der „modularen Fertigungsstraße“ zum „kognitiven Closed-Loop“
Die derzeitige Hauptarchitektur der serienmäßigen autonomen Fahrzeuge ähnelt einer präzise funktionierenden „modularen Fertigungsstraße“. Kameras und Lidarsysteme zerlegen die reale Welt in 3D-Punktwolken und 2D-Semantiklabels. Das Vorhersagemodul berechnet auf der Grundlage der historischen Fahrspuren die nächsten Bewegungen des Zielobjekts. Schließlich berechnet der Planer den Lenkwinkel und die Gaspedalstellung. Dieses getrennte Design von „Wahrnehmung - Vorhersage - Planung“ ist wie ein Fahrzeug, das mit hochpräzisen Augen und Händen ausgestattet ist, aber kein denkendes Gehirn hat.
In komplexen Verkehrssituationen werden die Schwächen dieses Systems offensichtlich. Wenn ein Karton von starkem Wind aufgewirbelt wird, kann es nicht vorhersagen, wo er landen wird. Wenn ein Kind am Straßenrand nach einem Ball rennt, kann es nicht vorstellen, dass es auf die Straße laufen könnte. Das Kernproblem besteht darin, dass die Maschine nicht über die kognitive Fähigkeit des menschlichen Gehirns verfügt, die von einer „begrenzten Beobachtung“ über eine „vollständige Modellierung“ bis hin zu einer „Zukunftsprognose“ reicht. Ein menschlicher Fahrer bremst automatisch auf einer nassen Straße ab, nicht weil er das Label „nasse Straße“ erkennt, sondern aufgrund des physikalischen Wissens, dass eine Wasserschicht den Reibungskoeffizienten verringert. Diese innere Vorstellung von den Gesetzen der Welt ist die Fähigkeit, die die aktuelle KI am meisten fehlt.
Die bahnbrechende Bedeutung des Weltmodells liegt darin, dass es ein dynamisch vorhersagbares „Digitales Zwillingshirn“ schafft. Im Gegensatz zu traditionellen Modellen, die nur eine einzelne Wahrnehmungs-Entscheidungs-Prozess abarbeiten, kann es in seinem Inneren eine Miniaturwelt simulieren: Durch die Eingabe der aktuellen Verkehrssituation und der angenommenen Handlungen kann es die visuelle Entwicklung, die Veränderung der Lidar-Punktwolken und sogar die Schwankungen des Reibungskoeffizienten zwischen Reifen und Straße in den nächsten 3 - 5 Sekunden generieren. Diese Fähigkeit, „in der Vorstellung zu proben“, gibt der Maschine erstmals eine ähnliche „Vorhersageintuition“ wie einem Menschen. Beispielsweise hat das von Mushroom Carlink entwickelte MogoMind, das erste KI-Modell für die Kognition der realen Welt, in mehreren intelligenten Vernetzungs-Projekten in chinesischen Städten diese Eigenschaft gezeigt. Durch die Echtzeit-Gesamtwahrnehmung der Verkehrsströmung kann es 3 Sekunden im Voraus das Kollisionsrisiko an Kreuzungen vorhersagen und die Verkehrseffizienz um 35 % verbessern.
Der Evolutionsbaum der KI-Modelle
Pure Visuelles Modell: Die „ursprüngliche Intuition“ durch brutale Anpassung
Mit der Entstehung des NVIDIA Dave-2 im Jahr 2016 begann die Ära des reinen visuellen autonomen Fahrens. Dieses Modell, das mit einem CNN die Kamerapixel direkt in Lenkwinkel umwandelt, ist wie ein Baby, das gerade erst zu laufen lernt und durch Millionen von Fahrsequenzen eine Art „Muskelgedächtnis“ entwickelt, um menschliche Fahrmanöver zu imitieren. Sein Vorteil liegt in seiner einfachen Struktur - es benötigt nur Kameras und kostengünstige Chips. Sein fataler Mangel ist jedoch, dass es nur das kann, was es gelernt hat, und bei unbekannten Situationen hilflos ist. Wenn es auf Szenarien stößt, die nicht in den Trainingsdaten enthalten sind, wie z. B. einen umgestürzten Lastwagen oder ein Gegenverkehrsfahrendes Motorrad, versagt das System sofort. Diese „Datenabhängigkeit“ lässt das reine visuelle Modell immer auf der Stufe der „Konditionierten Reflexe“ verharren.
Multi-Modale Fusion: Der „Weitwinkelblick“ zur verbesserten Wahrnehmung
Nach dem Jahr 2019 wurde die BEV (Bird's Eye View) - Technologie zur neuen Lieblingslösung der Branche. Die Lidar-Punktwolken, die Radarsignale des Millimeterwellenradars und die Daten der hochpräzisen Karten werden auf eine Vogelperspektive projiziert und dann durch einen Transformer in einem Multi-Modalen Prozess fusioniert. Diese Technologie löst das physikalische Problem der „Blindstellen der Kamera“ und kann die genaue Position eines Objekts, wie z. B. eines Fußgängers 30 Meter vorne links, berechnen. Im Wesentlichen ist es jedoch nur eine „Verbesserung der Wahrnehmung“, nicht eine „Kognitionssteigerung“. Es ist wie ein Fahrzeug, das mit einer 360-Grad-Umfeldüberwachung ausgestattet ist, aber nicht lernt, zu denken, dass ein Fußgänger mit einem aufgeblasenen Plastikbeutel möglicherweise den Blick blockieren könnte.
Visuelles-Spraches-Modell: Der „sprechende“ Wahrnehmungsapparat
Mit dem Aufstieg von großen visuellen-sprachlichen Modellen (VLM) wie GPT - 4V und LLaVA - 1.5 kann die KI erstmals „Bilder beschreiben“. Wenn es einen vorausfahrenden Wagen abrupt bremsen sieht, kann es erklären, dass „ein Kater auf die Straße gelaufen ist“. Wenn es Straßenarbeiten erkennt, kann es vorschlagen, „die linke Fahrspur zu nutzen“. Diese Fähigkeit, visuelle Signale in sprachliche Beschreibungen umzuwandeln, scheint der Maschine das „Verständnis“ zu verleihen, hat aber dennoch seine Grenzen im autonomen Fahrbereich.
Sprache als Vermittler führt zwangsläufig zum Verlust von physikalischen Details. In den Internet-Bild- und Text-Daten werden keine professionellen Parameter wie „der Reibungskoeffizient eines nassen Deckels sinkt um 18 %“ aufgezeichnet. Noch wichtiger ist, dass die Schlussfolgerungen des VLM auf der Textkorrelation basieren, nicht auf physikalischen Gesetzen. Es kann möglicherweise aufgrund der hohen Korrelation zwischen „starker Regen“ und „Verlangsamung“ in den Texten die richtige Entscheidung treffen, versteht aber nicht die dahinter liegenden Strömungsmechanikprinzipien. Diese Eigenschaft, nur das Ergebnis zu kennen, nicht aber die Ursache, macht es schwierig, extreme Situationen zu bewältigen.
Visuelles-Spraches-Handlungs-Modell: Der Sprung von „Sprechen“ zu „Tun“
Das im Jahr 2024 eingeführte VLA (Visuelles-Spraches-Handlungs-Modell) macht einen wichtigen Schritt vorwärts. NVIDIA VIMA und Google RT - 2 können direkt die sprachliche Anweisung „Reich mir die Tasse“ in die Gelenkwinkel eines Roboterarms umwandeln. Im Fahrkontext können sie auf der Grundlage der visuellen Eingabe und der Sprachnavigation Lenkbewegungen generieren. Diese „End - to - End“ - Zuordnung überspringt die komplizierten Zwischenlogiken und lässt die KI von der Fähigkeit, etwas zu beschreiben, zur Fähigkeit, es tatsächlich zu tun, evolvieren.
Aber die Schwächen des VLA sind immer noch deutlich: Es ist auf Internet - Bilder - und Video - Daten angewiesen und hat kein differenziertes Verständnis der realen Welt. Wenn es auf Situationen wie „auf einer vereisten Straße muss der Bremsweg um das Dreifache verlängert werden“ trifft, kann das auf Datenstatistiken basierende Modell keine genauen physikalischen Beziehungen ableiten und muss auf die Übertragung von Erfahrungen aus ähnlichen Situationen zurückgreifen. In der ständig wechselnden Verkehrsumgebung kann diese „Empirismus“ - Strategie leicht versagen.
Weltmodell: Das „vorstellende“ digitale Gehirn
Der wesentliche Unterschied zwischen dem Weltmodell und allen anderen oben genannten Modellen besteht darin, dass es einen geschlossenen Kreis von „Vorhersage - Entscheidung“ schafft. Sein Kernaufbau V - M - C (Vision - Memory - Controller) bildet eine ähnliche kognitive Kette wie das menschliche Gehirn:
Das Vision - Modul verwendet VQ - VAE, um ein 256×512 - Kamerabild in einen 32×32×8 - Latenten Code zu komprimieren und so wie die visuelle Rinde des Menschen die wichtigen Merkmale zu extrahieren. Das Memory - Modul speichert die historischen Informationen durch ein GRU und ein Gemischt - Dichtes - Netzwerk (MDN) und prognostiziert die Verteilung des Latenten Codes des nächsten Bildes, ähnlich wie der Hippocampus des Gehirns die zeitliche Sequenz der Erinnerungen verarbeitet. Der Controller - Modul generiert auf der Grundlage der aktuellen Merkmale und des Memory - Zustands Handlungen, ähnlich wie die Präfrontale Rinde des Gehirns die Entscheidungsfunktion übernimmt.
Das raffinierteste Merkmal dieses Systems ist der „Traumtraining“ - Mechanismus. Nachdem die V - und M - Module trainiert sind, können sie unabhängig von einem realen Fahrzeug in der Cloud mit 1000 - facher Echtzeitgeschwindigkeit simuliert werden. Dies entspricht einer täglichen „Fahrt“ von 1 Million Kilometern in einer virtuellen Welt für die KI, um kostenlos Erfahrungen in extremen Situationen zu sammeln. Wenn in der realen Welt eine ähnliche Situation auftritt, kann die Maschine auf der Grundlage der „Träume“ die optimale Entscheidung treffen.
Das Weltmodell mit einem „Newtonschen Gesetzesmotor“ ausstatten
Um das Weltmodell wirklich für das autonome Fahren tauglich zu machen, muss ein Kernproblem gelöst werden: Wie kann die „Vorstellung“ den physikalischen Gesetzen entsprechen? Das von NVIDIA vorgeschlagene Konzept der „Physikalischen KI“ gibt dem Weltmodell einen „Newtonschen Gesetzesmotor“, damit die virtuelle Simulation nicht nur „Phantasie“ ist, sondern reale Anwendungen hat.
Die hybride Architektur des Neuralen PDEs ist die Schlüsseltechnologie hierbei. Durch die Approximation der Strömungsmechanikgleichungen mit einem Fourier - Neuralen Operator (FNO) kann das Modell physikalische Phänomene wie „die Spritzrichtung der Reifen auf einer nassen Straße“ oder „die Auswirkung von Seitenwind auf die Fahrzeuglage“ in Echtzeit berechnen. In Testumgebungen konnte die Vorhersageabweichung des Systems für den Bremsweg auf einer nassen Straße von 30 % auf weniger als 5 % reduziert werden.
Die physikalische Konsistenz - Verlustfunktion ist wie ein strenger Physiklehrer. Wenn das Modell eine Situation wie „ein 2 - Tonnen - SUV verschiebt sich seitwärts um 5 Meter in 0,2 Sekunden“ „erfindet“, was dem Trägheitsgesetz widerspricht, wird es stark bestraft. Durch Millionen von ähnlichen Korrekturen lernt das Weltmodell schließlich, „auf dem Boden der Tatsachen zu stehen“ - es befolgt automatisch die physikalischen Gesetze in seiner Vorstellung.
Der Multi - Granularität - Token - Physikalische Motor geht noch einen Schritt weiter und zerlegt die Welt in Token mit verschiedenen physikalischen Eigenschaften wie starre Körper, elastische Körper und Fluide. Wenn es eine Situation wie „ein Matratze fällt vom Vordermann“ simuliert, berechnet das Modell gleichzeitig die Bewegung der Matratze als starren Körper und die Schubkraft des Luftstroms, um schließlich eine aerodynamisch korrekte Flugbahn zu generieren. Diese detaillierte Modellierung verbessert die Vorhersagegenauigkeit um mehr als 40 %.
Die Kombination dieser Technologien gibt dem autonomen Fahren die Fähigkeit zur „Kontrafaktischen Schlussfolgerung“ - dies ist die Kernkompetenz eines erf