StartseiteArtikel

Panik! Menschliche Fahrer werden in Zukunft vor der "VLA-Herausforderung" stehen.

有驾2025-08-12 07:04
Das VLA (Visuelle-Sprache-Aktions)-Modell bringt das intelligente Fahren einen Schritt weiter.

In letzter Zeit haben zwei wichtige neue Autos auf dem Markt viel Aufmerksamkeit erregt. Das eine ist das Li Auto i8, das andere ist das XPeng P7. Obwohl sich ihre Positionierungen unterscheiden, sind beide Stars in ihrem jeweiligen Bereich.

Unter den vielen Funktionen wird bei beiden Autos eine Kerntechnologie genannt, nämlich VLA. Dies ist die Basislogik für intelligente Fahrerassistenzsysteme.

Li Auto hat erklärt, dass die Entwicklung seiner Fahrerassistenzsysteme von der Zeit der manuellen Steuerung in die Ära der Künstlichen Intelligenz (KI) eingetreten ist. Zwischen 2021 und 2024 basierte die Entwicklung auf regelbasierten Algorithmen. Ab 2024 hat die Fahrerassistenz von Li Auto in die KI-Ära eingestiegen.

Heute können Fahrzeugbesitzer mit Hilfe von VLA sogar über Sprachbefehle das Auto steuern. Das System lernt und entwickelt sich auch anhand des Fahrstils der Benutzer, um ein menschenähnliches Fahrgefühl zu bieten.

XPeng hat kürzlich auch bekannt gegeben, dass die Entwicklung des großen VLA-Modells für das Fahrzeug gut voranschreitet. Es wird voraussichtlich bereits im August auf alle Fahrzeugmodelle übertragen werden. Das neue XPeng P7 wird zweifellos das große VLA-Modell integrieren und somit ein noch sichererer "Fahrer" werden.

01 Was ist VLA?

Der volle Name von VLA lautet "Vision-Language-Action", also ein Modell für Sicht, Sprache und Handlung. Der Kern besteht darin, visuelle Wahrnehmung, Sprachverständnis und Handlungsentscheidungen zu vereinen.

Die visuelle Wahrnehmung beinhaltet die Erkennung der Informationen, die von Hardware wie Kameras und Lidar-Sensoren gesammelt werden, einschließlich der Straßenbedingungen, Verkehrszeichen und der Positionen anderer Fahrzeuge und Fußgänger.

Diese Daten werden in ein visuelles Verarbeitungsmodul eingegeben. Mit Hilfe von Deep-Learning-Algorithmen werden die Bilder extrahiert und analysiert und in eine "Sprache" umgewandelt, die der Computer verstehen kann.

So kann es Verkehrsampeln erkennen, die Geschwindigkeit und Richtung von benachbarten Fahrzeugen bestimmen und Fußgänger an der Straße detektieren.

Das Sprachverständnis bedeutet, dass durch das Training eines großen Modells Befehle, Verkehrsregeln oder höhere Strategien verstanden werden. Darüber hinaus werden die visuellen und sprachlichen Modelle durch eine Zwischenstufe integriert, um ein einheitliches Umgebungsverständnis aufzubauen.

Wenn ein Passagier den Befehl "Rechts abbiegen an der nächsten Kreuzung" gibt, versteht das VLA-Modell zunächst diese Sprachinformation und kombiniert sie dann mit der aktuellen visuellen Wahrnehmungsinformation.

Schließlich werden in der Handlungsentscheidung konkrete Steuerbefehle wie Beschleunigen, Bremsen und Blinkern erzeugt und an das Fahrzeugsausführungssystem gesendet. Diese Befehle können die Gaspedal-, Bremse- und Lenkradkomponenten präzise steuern und somit das intelligente Fahren des Fahrzeugs ermöglichen.

VLA realisiert einen geschlossenen Kreis von "Bildinput, Befehloutput". Im Vergleich zu der traditionellen getrennten Arbeit von Wahrnehmung, Planung und Steuerung werden diese Schritte in einem System durchgeführt, was die Anpassungsfähigkeit an verschiedene Szenarien verbessert.

Vor der Einführung von VLA wurde meist eine Architektur von "End-to-End + VLM" verwendet. Hierbei ist VLM (Vision-Language Model). Im Bereich des autonomen Fahrens versucht es, Verkehrsszenarien zu verstehen und semantische Analysen durchzuführen. Beispielsweise kann es "Gezeitenfahrstreifen", "Umleitung wegen Bauarbeiten" erkennen und komplexe Kontexte wie "Linkskurve ohne Schutz" analysieren, sodass das System von "sehen" zu "verstehen" kommt. "End-to-End" ist für die Verarbeitung von Wahrnehmung, Entscheidung und Ausführung zuständig, und die beiden sind relativ unabhängig voneinander.

VLA kombiniert die Verständnisse aus VLM oder anderen Wahrnehmungsmodulen tiefgehend mit den Fahrzeugssteuerbefehlen wie Lenken, Beschleunigen und Bremsen und führt den gesamten Prozess von Eingabe bis Ausgabe direkt durch.

02 Welche konkreten Szenarien gibt es?

Beispielsweise unter komplexen Straßenbedingungen trifft das Fahrzeug gleichzeitig auf verschiedene Verkehrsteilnehmer, einschließlich Kraftfahrzeuge, Fußgänger, Fahrräder, sowie stets wechselnde Verkehrsampeln und komplizierte Verkehrszeichen.

Nachdem das VLA-Modell diese Informationen über Kameras und Radar "gelesen" hat, analysiert es das Szenario schnell. Wenn jemand gerade die Straße überquert und die Ampel in 10 Sekunden auf Rot wechselt, wird das System diese Situation verstehen und beurteilen und je nach tatsächlichen Umständen eine Entscheidung treffen. Es könnte sofort bremsen und anhalten, um den Fußgänger passieren zu lassen und diese Fahrgelegenheit aufgeben; oder es könnte den Fußgänger umfahren und schnell die grüne Ampel nutzen.

Diese menschenähnliche Denkweise ist der größte Vorteil des VLA-Modells. Seine Fähigkeit zur Generalisierung von Szenarien und zur Kontextanalyse ist stärker. Darüber hinaus kann VLA nach der Integration des Sprachverständnisses die Fahrstrategie flexibel anhand von Befehlen anpassen und somit ein kollaboratives Fahrerlebnis zwischen Mensch und Maschine ermöglichen.

Zusammenfassend lässt sich sagen, dass VLA nach der Integration in Fahrzeuge mehrere deutliche Verbesserungen bringen kann. Dazu gehören defensives Fahren, bei dem das Fahrzeug potenzielle Risiken auf der Straße automatisch analysieren und Unfälle vermeiden kann; gleichmäßiges Fahren, bei dem das Fahrzeug beim Beschleunigen, Bremsen und Überholen keine deutlichen Ruckler hat; Dreipunktwende, bei der das Fahrzeug in engen Räumen durch Vorwärts- und Rückwärtsfahren und erneutes Vorwärtsfahren eine 180-Grad-Wende durchführt. Funktionen, die mit End-to-End nicht möglich sind, können mit VLA erreicht werden; kontinuierliche Aufgaben, wobei das Fahrzeug mehrere Fahrbefehle nacheinander von VLA erhalten und automatisch ausführen kann; Fahrten in Tiefgaragen, bei denen das Fahrzeug in Wohnsiedlungs- und Einkaufszentertiefgaragen die Parkhauszeichen automatisch erkennen und entsprechend fahren kann.

03 Die psychologische Grundlage von VLA

Die intelligente Fahrerwahrnehmung erfolgt durch die Detektion von Radar, Lidar und Kameras, gefolgt von Bild- und Semantikanalysen, um schließlich ein Verhaltensplanung zu erstellen und Befehle an das Lenkrad, Gaspedal usw. zu senden.

Dieser scheinbar komplizierte Prozess ist aus psychologischer Sicht klar strukturiert und entspricht vollkommen dem menschlichen Prozess, die Welt zu verstehen und Verhaltensweisen zu steuern.

Ein wichtiger und grundlegender Teil der menschlichen Psyche ist die Informationsverarbeitung, die sich in Sinneswahrnehmung, Bewusstsein, Denken und Sprache gliedert. Sprache ist ein Verhalten, das vom Bewusstsein gesteuert wird.

Wenn Menschen die Welt kennenlernen, ist der erste Schritt die Sinneswahrnehmung. Was man sieht und hört, wird in das Gehirn übertragen. Zu diesem Zeitpunkt weiß man noch nicht, was man sieht, sondern es entsteht nur ein Abbild auf der Netzhaut. Durch das Wahrnehmungssystem und das Wissen und die Erfahrungen wird es in verschiedene Dinge wie "Apfel, Banane, Birne" umgewandelt.

Anschließend erfolgt eine tiefere Verarbeitung im Bewusstsein und Denken, um verschiedene Entscheidungen zu treffen. Schließlich wird es durch Körperteile wie Hände und Füße in die Tat umgesetzt.

Das gesamte menschliche Funktionssystem wird von einem neuronalen Netzwerk, insbesondere dem Gehirnnetzwerk, verbunden. Es überträgt elektrische Signale und ist fast augenblicklich abgeschlossen, sodass wir es nicht bemerken und sogar glauben, dass es in einem Schritt erfolgt.

So ist das menschliche Gehirn unglaublich mächtig. Wenn wir eine Kreuzung und eine geschäftige Menge sehen, können wir fast intuitiv eine Entscheidung treffen und wissen, wie wir die Kreuzung passieren sollen. Wenn wir einen halb ausgestreckten Fuß sehen, können wir vorhersagen, dass jemand möglicherweise herausspringt.

VLA soll genau diesen Effekt erzielen. Seine dahinterliegende Logik ist ähnlich der menschlichen Art, die Welt zu verstehen, und bietet somit einen Bezugspunkt für die Entwicklung der intelligenten Fahrtechnologie.

04 Fazit

Das Auftauchen von VLA markiert den Übergang der intelligenten Fahrtechnologie von der Funktionsaddition zur kognitiven Integration. In gewisser Weise kann es das Fahren "verstehen". Es versucht, in der kalten Maschine nachzumachen, wie Menschen die Welt wahrnehmen, und die visuelle "Wahrnehmung", das sprachliche "Verständnis" und die handlungsmäßige "Ausführung" zu einem organischen Ganzen zu verbinden.

Dies ist nicht nur eine Effizienzsteigerung, sondern auch eine Veränderung des Fahrerlebens hin zu einer "menschenähnlichen" Erfahrung. Die Grenzen der Mensch-Maschine-Kollaboration werden neu definiert, und es ist ein Sprung vom mechanischen Ausführen hin zur kognitiven Intelligenz.

Natürlich ist VLA derzeit noch nicht perfekt. Einer der größten Engpässe ist die Rechenleistung der Chips. Die derzeitigen hochleistungsfähigen Chips sind nicht für die Ausführung so großer KI-Modelle ausgelegt. Dies bedeutet aber auch, dass die Punkte für Verbesserungen klar sind, und mit der technologischen Entwicklung besteht noch viel Raum für Fortschritte.

Dieser Artikel stammt aus dem WeChat-Account "Youjia". Autor: Ren Hongbin. 36Kr hat die Veröffentlichung mit Genehmigung vorgenommen.