StartseiteArtikel

Liu Fang, ehemaliger Mitarbeiter von Xiaomi's Fahrerassistenzsystem: Wenn VLA funktioniert, wird die automatische Fahrweise zu einem Teilproblem der embodied intelligence. – Ein Interview von 36Kr

李安琪2025-05-28 12:17
Das VLA hat sich noch nicht konvergiert, und es gibt keine allumfassende Erfahrung.

„VLA ist ein großes Fahrer-Modell, das wie ein menschlicher Fahrer arbeitet.“ Am Abend des 7. Mai sagte Li Xiang, CEO von Li Auto, bei der AI Talk.

Dies ist die neueste technologische Richtung, die in der Branche der autonomen Fahrweise nach der „End-to-End“-Technologie aufgetaucht ist.

Das VLA (Vision-Language-Action, Visuelle-Sprache-Aktion)-Modell wurde erstmals von der Google AI-Firma Deepmind entwickelt und wird hauptsächlich im Bereich der Robotik eingesetzt. Anschließend ist es allmählich zum vorherrschenden technologischen Paradigma und Rahmenwerk im Bereich der Embodied AI geworden. Firmen wie OpenAI und ByteDance verfolgen diesen Ansatz.

Im Gegensatz zu visuellen Sprachmodellen (VLM) wie ChatGPT und Sora, die sich auf Text, Bilder und Videos konzentrieren, hat VLA zusätzlich die Fähigkeit, mit der physischen Welt zu interagieren, also „Aktionen“ auszuführen.

Mit anderen Worten, VLA versteht nicht nur die Umgebung, sondern kann auch direkt Steuerbefehle ausgeben, wie z. B. Roboterbewegungen oder Fahrentscheidungen für Fahrzeuge. Dadurch gibt es eine tiefere Verbindung zwischen den beiden beliebten Feldern der autonomen Fahrweise und der Embodied AI.

Derzeit befindet sich die technologische Umsetzung und die industrielle Anwendung von VLA jedoch noch in der Anfangsphase. Der Nebel der technologischen Innovation muss noch in der Praxis aufgelöst werden. Aus diesem Grund hat 36Kr Auto kürzlich mit einem Projekt namens Amio Robotics gesprochen, das von Fachleuten mit Hintergrund in der Technologie der autonomen Fahrweise gegründet wurde, um der Branche mehr Referenzen zu bieten.

Amio Robotics wurde im September 2024 von Liu Fang, dem Leiter des technologischen Produkts für die autonome Fahrweise von Xiaomi Auto, gegründet. Im März dieses Jahres absolvierte Amio die Seed-Runde der Finanzierung. Die Investoren umfassen Anker Innovations, Zhipu AI und Xianfeng Changqing.

Liu Fang war an der Gründung des autonomen Fahrteams von Xiaomi, der technologischen Entwicklung und der Serienproduktion beteiligt. Noch früher arbeitete Liu Fang in der Suchmaschinenabteilung von Google China.

Liu Fang sagte 36Kr Auto, dass das Auftauchen des generativen großen Modells GPT im Jahr 2023 viele Auswirkungen auf die Branche hatte: Erstens kann eine größere Datenmenge ein größeres Modell intelligenter machen. Zweitens versteht das große Modell bereits viele menschliche Kenntnisse. Um neue Fähigkeiten zu erlernen, muss man nicht nur durch Imitation lernen, sondern auch die Kenntnisse hinter den Imitationsdaten verstehen, um das Verständnis für Dinge aufzubauen.

Er verglich es damit, dass man früher bei jedem spezifischen AI-Szenario wie beim Bergsteigen war und ständig auf Schwierigkeiten stieß. Aber seit der Entstehung von GPT ist es wie ein Schiff auf dem Meer. Wenn das Meeresspiegel langsam steigt, werden die Berge überflutet.

Das VLA-Modell ist ein großes Modell, das physische Hardware mit echter Intelligenz ausstattet. Liu Fang glaubt, dass, wenn der Weg von VLA funktioniert, die autonome Fahrweise zu einem einfachen Problem wird und ein Teilproblem der Embodied AI wird.

Liu Fang sagte, dass die autonome Fahrweise in den letzten Jahren im Wesentlichen auf Imitationslernen basiert. Anstatt manuell Regeln zu schreiben, lässt man das System direkt eine riesige Datenmenge lernen und die Fahrregeln selbst zu finden. Dies bringt jedoch auch Herausforderungen mit sich, da das Imitationslernen nicht in der Lage ist, Fälle außerhalb der vorhandenen Daten zu behandeln.

Die Implementierung neuer Technologien wie VLA und Reinforcement Learning bringt neue Ideen.

Zum Beispiel hat das VLM (Visuelles Sprachmodell) im VLA (Visuelle-Sprache-Aktion)-Modell bereits die Fähigkeit, die Welt zu erkennen. „Die Leistung von VLM bestimmt mehr als die Hälfte der Leistung von VLA. Der Großteil der Arbeit von VLA besteht darin, VLM zu verbessern.“ sagte Liu Fang.

Außer der Fähigkeit, Bilder zu beschreiben und Entfernungen zu erkennen, ist der entscheidende Schritt von VLA der letzte Aktionsschritt. „Wenn man Möbel kauft und zusammenbauen muss, liest man zuerst die Anleitung und schaut sich Beispiele an. Aber ob man es gut macht, hängt von der Praxis ab.“

Liu Fang sagte, dass der letzte Schritt im Wesentlichen ein Prozess des „Ausprobierens“ (trying out) ist. Auch Roboter werden in der letzten Praxisphase Reinforcement Learning betreiben.

Reinforcement Learning ist ein Belohnungsmechanismus und eine Strategie für das Training von KI. Wenn das System für die autonome Fahrweise richtig fährt, bekommt es eine „Süßigkeit“; wenn es schlecht fährt, wird es bestraft.

Liu Fang sagte jedoch, dass der größte Unterschied zwischen der autonomen Fahrweise und dem Reinforcement Learning von Robotern das Problem des Wettbewerbs ist. „Ein Roboter muss nicht mit anderen Robotern um eine Tasse kämpfen. Aber beim Reinforcement Learning der autonomen Fahrweise muss man auch die Reaktionen des Gegners imitieren.“

Am Ende kann dieses Problem möglicherweise nur mit einem guten Weltmodell-Simulator gelöst werden. Aber in der praktischen Umsetzung kann nicht plötzlich ein perfektes Weltmodell auftauchen, um die Simulation zu unterstützen. „Man kann nur sagen, dass ein Teil der Simulation des Weltmodells das System dazu bringt, Reinforcement Learning durchzuführen und sich zu verbessern. Dann findet man die Simulationen, die nicht mit der Realität übereinstimmen, und fügt einige Daten hinzu, um das Weltmodell zu verbessern. Es ist ein schrittweiser Iterationsprozess. Ich glaube, dass das Weltmodell und das Fahrmodell immer zusammen iteriert werden müssen.“

Liu Fang sagte auch, dass sich VLA derzeit noch in einer Phase der innovativen Unsicherheit befindet. Die Umsetzungsmethoden der verschiedenen Unternehmen in der Branche sind unterschiedlich und haben noch nicht konvergiert.

Basierend auf dem VLA-Modell sucht Amio Robotics nach seinem eigenen Weg. Liu Fang sagte 36Kr Auto, dass sich das Unternehmen derzeit hauptsächlich auf die flexible Produktion von Robotern im Bereich der 3C-Konsumelektronik konzentriert.

Er sagte 36Kr Auto, dass die Lebensdauer vieler elektronischer Produkte nicht lang ist und die Produktionseinheiten klein sind. Die Kosten für die Installation einer automatisierten Produktionslinie sind hoch und es dauert mindestens zwei Monate, bis sie einsatzbereit ist. „Aber eine Produktionslinie erfüllt die Anforderungen bereits nach 3 - 4 Monaten. Aus Kostensicht ist die Automatisierung der Produktionslinien für 3C-Konsumelektronik nicht rentabel.“

Liu Fang sagte, dass das VLA-Modell es ermöglichen kann, dass herkömmliche spezialisierte Roboter zu universellen Robotern werden, deren Lern- und Anpassungsfähigkeit schnell das menschliche Niveau erreicht.

Zum Beispiel kann man in einem festen Arbeitsplatz in einer Fabrik eine Roboter-Hardware und -Software installieren, um die dreischichtige Arbeitsweise von Menschen zu ersetzen. Selbst wenn sich die Produktionslinie für 3C-Produkte flexibel ändert, kann der universelle Roboter nahtlos zwischen ähnlichen universellen Aufgaben wechseln.

Derzeit hat Amio Robotics ein gemeinsames Labor mit Peking-Universität eingerichtet. Beide Parteien arbeiten an einem VLA-Grundmodell zusammen. Bei der Modelltraining kann Amio Robotics auch mit der Unterstützung des Investors Zhipu AI die Vor-Training durchführen. Zweitens hat Amio Robotics bereits Daten in der Fabrik gesammelt.

In Bezug auf den Geschäftsfortschritt sagte Liu Fang, dass im dritten und vierten Quartal dieses Jahres eine große Produktionslinie für universelle Roboter fertiggestellt werden wird. Neben dem Bereich der Konsumelektronik wird Amio Robotics in Zukunft auch in den Dienstleistungsbereich und in Szenarien wie der Haushaltsreinigung und -ordnung expandieren.

Im Folgenden ist das Interview zwischen 36Kr Auto und Liu Fang, dem Gründer von Amio Robotics. Der Inhalt wurde bearbeitet:

36Kr Auto: Betrachtet Ihr nicht die Herstellung von Roboterproduktionslinien für die Automobilbranche?

Liu Fang: Die Arbeitsintensität und die Anforderungen in der Automobilindustrie sind tatsächlich höher. Aber im Wesentlichen besteht keine Bedarf an Universalität. Es ist ein guter Anwendungsfall für die Intelligenz von Geräten, aber kein guter Anwendungsfall für die Embodied AI.

Eine Automobilproduktionslinie wird 7 - 9 Jahre, mindestens 5 Jahre lang genutzt. Wenn es bessere spezialisierte Geräte gibt, um dieses Problem zu lösen, warum sollte man nicht spezialisierte Geräte verwenden? Spezialisierte Geräte sind billiger als universelle Geräte. Es ist nicht notwendig, universelle Geräte zu verwenden.

36Kr Auto: Baut Ihr die Lieferanten von Roboterarmen selbst oder sucht Ihr nach externen Lieferanten?

Liu Fang: Derzeit kann die Greifzange mehr als 80 % der Aufgaben lösen. Viele Branchen benötigen keine dexteren Hände. Erstens sind die Kosten für dexteren Hände zu hoch. Zweitens ist die Lebensdauer ein Problem. Die Kunden verlangen, dass die Roboter dreischichtig arbeiten und ein Jahr lang funktionieren, was mindestens 7000 Stunden Lebensdauer erfordert. Unsere aktuelle Anforderung an die Lebensdauer ist 8000 - 10000 Stunden, was die Greifzange erreichen kann.

36Kr Auto: Die Gewinne aus der Robotersubkontraktion sind nicht hoch. Wie berechnet Ihr Euer Geschäftsmodell?

Liu Fang: Erstens kann die Subkontraktion die Menschen ersetzen und für die Kunden Geld sparen. Zweitens muss die Produktivität der Maschinen ausreichen. Aus Sicht der Arbeitskosten kostet ein Arbeiter pro Jahr 100.000 Yuan.

Die Kosten für einen Roboter bestehen aus zwei Teilen. Erstens ist es das Anlagevermögen des physischen Roboters. Zweitens braucht es auch ein Algorithmusmodell. Die Anfangsinvestitionen für das Modell sind hoch, aber später werden die Kosten verteilt. Ein Roboter kann dreischichtig arbeiten und kann die Kosten von drei Menschen an einem Arbeitsplatz ersetzen.

36Kr Auto: Warum habt Ihr damals für die Gründung eines Unternehmens im Bereich der Produktionsroboter für die Konsumelektronik entschieden, anstatt in der autonomen Fahrweise zu investieren?

Liu Fang: Meine erste Arbeit war bei Google, wo ich an Sprachmodellen (Large Language Models) arbeitete. Nach der Entstehung von GPT 3.5 Anfang 2023 war ich stark beeindruckt.

Erstens kann eine große Datenmenge ein größeres Modell intelligenter machen. Wenn man ein technologisches Framework, das im Wesentlichen auf Imitationslernen basiert, mit einer großen Datenmenge füttert, kann es auch ohne die Kenntnis einiger Fälle intelligent werden.

Zweitens versteht das große Modell bereits viele menschliche Kenntnisse. Um neue Fähigkeiten zu erlernen, muss man nicht nur durch Imitation lernen, sondern auch die Kenntnisse hinter den Imitationsdaten verstehen, um das Verständnis für Dinge aufzubauen. Dies ist näher an der AGI und auch das, was die Embodied AI VLA macht. Wenn dieser Weg funktioniert, wird die autonome Fahrweise zu einem einfachen Problem und ein Teilproblem eines größeren Problems.

36Kr Auto: Ist die Implementierung von VLA in der autonomen Fahrweise also ein ziemlich sicheres Ding?

Liu Fang: Die Implementierung von VLA in der Robotik ist eher sicher. Lei Jun (CEO von Xiaomi) sagt immer, man sollte von einer höheren Dimension aus angreifen. Wenn man auf einer höheren Ebene steht und die Robotik gut macht, kann der Roboter auch fahren. Die autonome Fahrweise ist dann eine natürliche Folge.

36Kr Auto: Welche Probleme in der Branche der autonomen Fahrweise kann VLA lösen?

Liu Fang: Zwei Probleme. Erstens ist die Datenmenge zu groß. Früher war es unmöglich, alle Fälle durch das Schreiben von Regeln abzudecken. Später haben die Leute durch Imitationslernen Regeln nicht mehr geschrieben und stattdessen direkt durch das Lernen von Daten die Effizienz erhöht. Dies ist das, was Tesla letztes Jahr gesagt hat. Aber es gibt immer noch Probleme. Das Imitationslernen kann nicht in der Lage ist, Fälle außerhalb der Daten zu behandeln. Dies ist auch die größte Hilfe, die VLA bieten kann.

36Kr Auto: Kann Reinforcement Learning das Problem lösen?

Liu Fang: Unsere Methode ist, Reinforcement Learning auf VLA anzuwenden. Reinforcement Learning ist wie beim Menschen. Der Mensch lernt zuerst die Grundfähigkeiten: Bilder beschreiben und Entfernungen erkennen. Zweitens muss man wissen, wie man Aktionen ausführt. Dies erfordert Praxis. Wenn man Möbel kauft und zusammenbauen muss, liest man zuerst die Anleitung und schaut sich Beispiele an. Aber ob man es gut macht, hängt von der Praxis ab. Dieser Schritt ist im Wesentlichen ein Prozess des „Ausprobierens“ (trying out). Wir führen Reinforcement Learning nur in der letzten Praxisphase durch.

Da Roboter keine große Simulationsumgebung haben, um die Interaktion zu simulieren, können sie nur in der Realität viele Experimente durchführen. Und die Zeit und die Anzahl der Versuche, die ein Roboter direkt lernen und ausprobieren kann, sind begrenzt. Deshalb kann ein Roboter nicht von Null an mit Reinforcement Learning anfangen. Die allgemeine Lernlogik und Richtung von VLA sind richtig. Die Dinge, die in der Mitte nicht gut funktionieren, werden am Ende durch Reinforcement Learning verbessert. Wir nennen dies Residual Reinforcement Learning, bei dem man die Abweichung zwischen dem VLA-Modell und der realen Umgebung lernt, anstatt Reinforcement Learning in allen Schritten anzuwenden.

36Kr Auto: Ist es schwierig, Reinforcement Learning in der autonomen Fahrweise anzuwenden?

Liu Fang: Tatsächlich ist es noch schwieriger. Der größte Unterschied zwischen der autonomen Fahrweise und Robotern ist das Problem des Wettbewerbs. Ein Roboter muss nicht mit anderen Robotern um eine Tasse kämpfen. Aber beim Reinforcement Learning der autonomen Fahrweise muss man auch die Reaktionen des Gegners imitieren.

Entweder sammelt man Daten in der realen Umgebung, aber manche Daten sind schwierig zu sammeln. Oder man generiert die Reaktionen des Gegners in einer Simulationsumgebung. Aber die generierten Daten decken möglicherweise nicht die erforderliche Datenverteilung für das Training ab. Wenn der Suchraum nicht groß genug ist, wird das Reinforcement Learning auch keine praktischen Ergebnisse bringen.

36Kr Auto: Wie kann man das Problem lösen? Ist das Weltmodell nützlich?

Liu Fang: Wenn die Simulationsfähigkeit stark ist und die Imitation der Reaktionen verschiedener Objekte im Weltmodell gut funktioniert, gibt es eigentlich kein Problem mit der Out-of-Distribution (OOD, was bedeutet, dass, wenn ein Modell auf einer bestimmten Datenverteilung trainiert wird, seine Leistung bei der Verarbeitung von Datenverteilungen, die sich von den Trainingsdaten unterscheiden, möglicherweise schlechter wird).

Dies ist ein logisches Paradoxon. Ich habe es noch nie verstanden. Es ist möglicherweise ein schrittweiser Iterationsprozess. Es kann nicht plötzlich ein perfektes Weltmodell auftauchen, um die Simulation zu unterstützen. Man kann nur sagen, dass ein Teil der Simulation des Weltmodells das System dazu bringt, Reinforcement Learning durchzuführen und sich zu verbessern. Dann findet man die Simulationen, die nicht mit der Realität übereinstimmen, und fügt einige Daten hinzu, um das Weltmodell zu verbessern. Es ist ein schrittweiser Iterationsprozess. Ich glaube, dass das Weltmodell und das Fahrmodell immer zusammen iteriert werden müssen.

36Kr Auto: Kürzlich hat Li Auto gesagt, dass VLA in ein unentdecktes Gebiet eingetreten ist. Stimmen Sie zu?

Liu Fang: Innovation ist nicht einfach. VLA befindet sich tatsächlich noch in einer Phase der Unsicherheit. Die verschiedenen