StartseiteArtikel

Geschichte der Streitigkeiten zwischen den Schulen des autonomen Fahrens

脑洞汽车2025-09-28 10:48
Diese offenen Streitfragen führen das autonome Fahren in eine noch nicht vollständig bestimmte Zukunft.

Die kommerzielle Umsetzung von autonomem Fahren wird weltweit beschleunigt.

Bis Mai 2025 betrug die Anzahl der autonom fahrenden Taxis von Waymo in San Francisco, Los Angeles, Phoenix und Austin in den USA 1.500. Sie erledigten wöchentlich über 250.000 bezahlte Fahrten. Baidu Apollo hat weltweit über 1.000 Fahrzeuge ohne Fahrer eingesetzt und hat insgesamt über 11 Millionen Fahrten angeboten. Die Fahrzeuge haben dabei eine sichere Fahrstrecke von über 170 Millionen Kilometern zurückgelegt.

Die Massenumsetzung scheint darauf zu hindeuten, dass die Technologie bereits reif sei. Das stimmt jedoch nicht. Bei autonomem Fahren gibt es noch viele Meinungsverschiedenheiten, über die keine Einigkeit besteht.

Zum Beispiel: Welches Sensorpaket sollte man wählen, ein reines Visuelles oder ein Mehrsensor-Fusionspaket? Bei der Systemarchitektur: Soll man sich für ein modulares Design entscheiden oder sich einem aufkommenden End-to-End-Ansatz verschreiben? Und weiter: Welches ist besser, VLA oder VLM, wenn es um das Verständnis der Welt geht?

Diese ungelösten Streitfragen lenken das autonome Fahren in eine noch nicht ganz bestimmte Zukunft. Das Verständnis dieser verschiedenen Technologiewege bedeutet, zu verstehen, woher das autonome Fahren kommt, wohin es geht und wie es sich technologisch weiterentwickeln kann.

Der Streit um die „Augen“

Reines Visuelles vs. Mehrsensor-Fusion

Alles beginnt mit dem „Sehen“. Wie ein Auto die Welt wahrnimmt, ist die Grundlage für autonomes Fahren. Bei dieser Frage gibt es zwei seit langem gegenüberstehende Lager, und der Streit dauert bis heute an.

Die Geschichte geht zurück auf eine Challenge im Mojave-Wüste in den USA im Jahr 2004.

Damals stellte die Defense Advanced Research Projects Agency (DARPA) einen Preis von 2 Millionen US-Dollar aus, um Dutzende Spitzenhochschulen und Forschungseinrichtungen anzulocken, um die Frage zu beantworten: „Wie kann ein Fahrzeug seine Umgebung wahrnehmen?“

Das Team von der Carnegie Mellon University und der Stanford University gewann mit dem Lidar-System. Diese Technologie, die präzise 3D-Punktwolkenbilder erzeugen kann, legte die Grundlage für die frühe Entwicklung des autonomen Fahrens und wurde von Waymo, einer Tochter von Google, weiterentwickelt.

Dieser Ansatz hat jedoch ein tödliches Schwachpunkt: Die Kosten. Ein Lidar-System kostet bis zu 75.000 US-Dollar, mehr als das Auto selbst. Es ist daher auf eine kleine, exklusive Produktion beschränkt und schwer für eine Massenkommerzialisierung geeignet.

Zehn Jahre später ging das von Tesla vertretene visuelle Lager einen anderen Weg.

Sie plädieren für die Einfachheit: „Menschen können mit nur zwei Augen und einem Gehirn fahren. Warum sollte das ein Fahrzeug nicht können?“

Im Jahr 2014 stellte Tesla das Autopilot-System vor, das das visuelle Paket von Mobileye nutzt und sich auf Kameras als Hauptsensoren festlegte. Im Jahr 2016 erklärte Elon Musk öffentlich, dass Lidar „vergeblich“ sei, und etablierte damit offiziell den reinen visuellen Technologieweg.

Das Team simuliert das menschliche Sichtfeld mit acht umlaufenden Kameras und rekonstruiert die dreidimensionale Umgebung aus zweidimensionalen Bildern mithilfe von Deep-Learning-Algorithmen. Das reine visuelle Paket ist sehr kostengünstig und eignet sich für eine Massenkommerzialisierung. Indem man mehr Autos verkauft und mehr echte Daten sammelt, entsteht ein „Datenflügelrad“, das die Algorithmen verbessert und sie immer besser macht.

Aber Kameras sind „passive“ Sensoren und hängen stark von Umgebungslicht ab. Unter ungünstigen Lichtverhältnissen wie Gegenlicht, Blendung, Dunkelheit, starkem Regen oder Nebel sinkt ihre Leistung deutlich und ist weit hinter der eines Lidar-Systems zurück.

Der Ansatz der Mehrsensor-Fusion mit Lidar als Hauptsensor geht davon aus, dass die KI in absehbarer Zukunft nicht die menschliche Erfahrung und Intuition ersetzen kann. In schlechten Wetterbedingungen müssen zusätzliche Hardwarekomponenten wie Lidar eingesetzt werden, um die Schwächen der Software auszugleichen.

Man kann sagen, dass das reine visuelle System all seinen Druck auf die Algorithmen setzt und auf eine intelligente Zukunft setzt. Die Mehrsensor-Fusion legt mehr Wert auf die praktische Umsetzung und wählt einen bewährten, realistischen Ansatz.

Derzeit stehen die meisten führenden Automobilhersteller (Waymo, XPeng, NIO usw.) auf der Seite der Mehrsensor-Fusion. Sie halten die Sicherheit für die oberste Priorität beim autonomen Fahren, und Redundanz ist nach ihrer Meinung der einzige Weg, um diese Sicherheit zu gewährleisten.

Es ist wichtig zu beachten, dass diese beiden Ansätze nicht völlig getrennt sind, sondern sich voneinander lernen und miteinander verbinden. Das reine visuelle System integriert mehr Sensoren, und in der Mehrsensor-Fusion spielt die visuelle Algorithmen immer größere Rolle und wird zum Schlüssel für das Verständnis der Szene.

Der Streit um den „Tastsinn“

Lidar vs. 4D-Millimeterwellenradar

Selbst innerhalb des Lager der Mehrsensor-Fusion gibt es eine Entscheidung zu treffen:

Ein Millimeterwellenradar kostet nur einige hundert Euro, während ein Lidar-System in der Anfangsphase mehrere zehntausend Euro kostet. Warum sollte man also so viel Geld in ein Lidar-System investieren?

Das Lidar-System (Light Detection and Ranging) sendet Laserstrahlen aus und misst die Rücklaufzeit, um ein sehr detailliertes 3D-Punktwolkenbild der Umgebung zu erstellen. Es hat damit das Problem gelöst, das andere Sensoren nicht lösen konnten: die „Corner Cases“ (extreme Fälle).

Es hat eine sehr hohe Winkelauflösung und kann die Haltung von Fußgängern, die Kontur von Fahrzeugen und sogar kleine Hindernisse auf der Straße deutlich unterscheiden. In der kommerziellen autonomen Fahrweise der Stufen L4/L5 gibt es keinen anderen Sensor, der gleichzeitig die Anforderungen an „Hohe Präzision“ und die „Detektion von statischen Objekten“ erfüllen kann. Um die grundlegenden Funktionen des autonomen Fahrens und die Sicherheitsredundanz zu gewährleisten, müssen die Automobilhersteller die Kosten für das Lidar-System aufbringen.

Wenn das Lidar-System so stark ist, warum sollte man dann andere Sensoren entwickeln?

Das Lidar-System hat zwar eine sehr hohe Leistung, aber auch seine Grenzen. Laserstrahlen gehören zum Infrarotlicht und haben eine sehr kurze Wellenlänge. Die Größe von Regentropfen, Nebeltröpfchen, Schneeflocken, Rauch und Staubpartikeln ist ähnlich der Wellenlänge des Lasers, was zu Streuung und Absorption der Laserstrahlen führt und viele „Rauschen“-Punktwolken erzeugt.

Das 4D-Millimeterwellenradar kann rund um die Uhr arbeiten und hat in schlechten Wetterbedingungen eine starke Durchdringungskraft. Es kann Hindernisse frühzeitig entdecken und Entfernungs- und Geschwindigkeitsdaten liefern. Aber die Rückstreupunkte des Millimeterwellenradars sind sehr spärlich, und es kann nur wenige Punktwolken bilden. Es kann nicht wie das Lidar-System die Kontur und Form von Objekten abbilden und kann auch aufgrund von elektronischen Störungen zu „Geistererkennungen“ führen. Seine geringe Auflösung macht es ungeeignet als Hauptsensor, und es kann nur als Hilfssensor eingesetzt werden.

Also haben Lidar und Millimeterwellenradar jeweils Vor- und Nachteile. Sie ersetzen sich nicht gegenseitig, sondern ergänzen sich. Im Normalfall wird das Millimeterwellenradar eingesetzt, um die Kosten zu senken, und in komplexen Situationen wird Lidar verwendet, um die Sicherheit zu gewährleisten. Unterschiedliche Fahrzeugmodelle haben unterschiedliche Ausstattungen.

L4-Robotaxis und Luxuswagen verwenden normalerweise eine Strategie, bei der Lidar als Hauptsensor und Millimeterwellenradar als Hilfssensor eingesetzt wird. Sie setzen auf eine maximale Sicherheit und Leistung und sparen dabei nicht bei den Kosten. L2+- und L3-Serienfahrzeuge für den Massenmarkt verlassen sich hauptsächlich auf „Kamera + Millimeterwellenradar“ und verwenden 1 - 2 Lidar-Sensoren an wichtigen Stellen auf dem Dach, um ein kostengünstiges und effektives System zu schaffen.

Der Streit der Automobilhersteller um die Sensorauswahl ist im Grunde eine technologische Erkundung und ein kommerzielles Spiel, um die maximale Sicherheit mit minimalen Kosten zu erreichen. In Zukunft werden die verschiedenen Sensoren noch stärker miteinander integriert und verschiedene Kombinationsmöglichkeiten bieten.

Der Streit um das „Gehirn“

End-to-End vs. Modulare Architektur

Wenn die Sensoren die „Augen“ eines Fahrzeugs sind, dann sind die Algorithmen das „Gehirn“.

Über einen langen Zeitraum wurde bei autonomen Fahrzeugen ein modulares Design verwendet. Die gesamte Fahraufgabe wurde in unabhängige Teilaufgaben wie Wahrnehmung, Vorhersage, Planung und Steuerung aufgeteilt. Jedes Modul hat seine eigene Aufgabe, eigene Algorithmen und Optimierungsziele, wie in einem gut organisierten Fließband.

Das modulare System hat den Vorteil, dass es gut nachvollziehbar ist, parallel entwickelt werden kann und leicht zu debuggen ist. Aber das Optimum eines Teils bedeutet nicht das Optimum des Ganzen. Der Ansatz des Zerlegens und Lösen hat auch fatale Mängel. Jedes Modul vereinfacht und abstrahiert die Informationen bei der Verarbeitung und Weiterleitung, was dazu führt, dass die ursprünglichen reichen Informationen im Laufe der Übertragung verloren gehen und die Gesamtleistung nicht optimal ist.

Von 2022 bis 2023 tauchte der End-to-End-Ansatz auf, vertreten durch das Tesla FSD V12, und revolutionierte das herkömmliche Paradigma. Dieser Ansatz bezieht seine Inspiration aus dem menschlichen Lernprozess: Ein Fahrschüler lernt nicht zuerst die Optik und dann die Verkehrsregeln, sondern erlernt das Fahren direkt durch das Beobachten des Fahrlehrers.

Der End-to-End-Ansatz verzichtet auf die manuelle Modulaufteilung. Stattdessen lernt er aus einer großen Menge menschlicher Fahrtdaten und baut ein riesiges neuronales Netzwerk auf, das die Rohdaten von den Sensoren direkt in Steuerbefehle wie Lenkwinkel, Gas und Bremse umwandelt.

Im Gegensatz zu den modularen Algorithmen gibt es bei dem End-to-End-Ansatz keine Informationsverluste, und seine Leistung hat ein hohes Potenzial. Der Entwicklungsablauf kann weiter vereinfacht werden. Aber es besteht das Problem, dass es schwierig ist, die Ursache eines Problems zu finden. Wenn ein Unfall passiert, ist es schwierig zu sagen, wo der Fehler liegt und wie man ihn beheben kann.

Der End-to-End-Ansatz hat das autonome Fahren von einer regelbasierten zu einer datengetriebenen Technologie gebracht. Aber seine „Black-Box“-Eigenschaft macht es für viele Automobilhersteller, die mehr Wert auf Sicherheit legen, unattraktiv. Die riesige Menge an Trainingsdaten kann nur von Unternehmen mit großen Fahrzeugflotten bereitgestellt werden.

Deshalb gibt es in der Branche einen kompromisslichen Ansatz, den sogenannten „Expliziten End-to-End-Ansatz“. Bei diesem Ansatz werden Zwischenergebnisse wie die befahrbare Fläche und die Zielbahn beibehalten, um ein Gleichgewicht zwischen Leistung und Nachvollziehbarkeit zu finden.

Der Streit um die „Seele“

VLM vs. VLA

Mit der Entwicklung der KI hat sich ein neues Schlachtfeld innerhalb der Large Language Models (LLMs) eröffnet. Es geht darum, ob das autonome Fahren eher ein Begleiter (VLM) oder ein Ausführender (VLA) sein sollte?

Das VLM (Visual Language Model) vertraut auf die Zusammenarbeit und strebt eine kontrollierbare Prozessführung an. Es wird auch als der „Enhanced“-Ansatz bezeichnet. Dieser Ansatz geht davon aus, dass die KI zwar sehr stark ist, aber die Halluzinationen in der Sicherheitskritischen Bereiche fatal sein können. Die KI sollte sich auf ihre Stärken konzentrieren, wie das Verstehen, Erklären und Schließen, und die endgültige Entscheidung sollte an ein bewährtes, vorhersagbares und anpassbares traditionelles System für autonomes Fahren übergeben werden.