VLA wird nicht sterben, ausgenommen diejenigen, die nicht mit Weltmodellen fusionieren.
Text | Intelligente Relativitätstheorie
Autor | Ye Yuanfeng
Im Mai 2026 ging in der Welt der Embodied Intelligence ein nicht besonders lustiger erfundener Witz herum: Ein VLA-Modell wurde bei einer Demonstration gebeten, "den Apfel auf dem Tisch her zu bringen". Der Roboterarm streckte sich elegant aus und packte fest einen Becher. Es herrschte Stille vor Ort. Der Ingenieur brach in Schweiß aus und tippte eilig auf dem Pad: "Apfel neu definieren".
In den letzten sechs Monaten gab es viele ähnliche Pechgeschichten. Die Protagonisten reichten von den am höchsten bewerteten Unicorns im Inland bis hin zu Figure AI und Physical Intelligence jenseits des Ozeans, und keiner war verschont geblieben.
Vor ein paar Jahren hat die Branche noch für die Technologie Route VLA (Vision-Language-Action, Visions-Sprache-Aktionsmodell) gekämpft. Als das RFM - 1 von Covariant erstmals auftrat, haben die Medien fast die Kappe des "Allgemeinen Roboter-Singularität" direkt auf es gesetzt. Sobald die RT - 2 - Publikation von Google DeepMind erschien, haben die Analysten auf den sekundären Märkten ihre Berichte in aller Eile geändert und den kommerziellen Zeitplan für Embodied Intelligence um drei Jahre vorgezogen.
Heute spricht niemand mehr von der "Singularität".
Was die Leute interessiert, ist, ob dieses Ding tatsächlich in der Fabrik Schrauben in die Löcher drehen kann, anstatt den Schraubendreher in seinen eigenen Motor zu stechen. Unter dem VLA - System hat die etwas ungeschickte Leistung der Embodied Intelligence dazu geführt, dass Jim Fan, der Chef der NVIDIA - Robotik, sogar direkt ausrief: "VLA ist tot."
Nur kommt diese Aussage zu früh.
VLA wird nicht sterben. Diejenigen VLA, die versuchen, einen allgemeinen Roboter nur mit Internet - Bildern, Videos und ein paar Fernsteuerungsdaten von Roboterarmen zu erschaffen, sollten tatsächlich begraben werden. Aber etwas Neues wächst auf, das das "Weltmodell", über das die Branche seit Jahren spricht, aber das bisher nicht ernst genommen wurde, integriert. Dies könnte der einzige gangbare Weg für Embodied Intelligence in den nächsten drei Jahren sein.
Das "Gehirn im Tank", das im Internet lebt
Um zu verstehen, warum VLA so oft fehlschlägt, muss man zuerst seine genetischen Mängel verstehen.
Die derzeitigen gängigen VLA - Architekturen, sei es das RT - 2 von Google oder die von chinesischen Firmen wie Xingchen Intelligence entwickelten Dinge, haben alle die gleiche logische Grundlage. Zuerst werden die visuellen und sprachlichen Informationen mithilfe von riesigen Mengen an Internet - Bild - und Text - Daten ausgerichtet, damit das Modell Bilder verstehen und menschliche Sprache verstehen kann. Dann werden die Bewegungsdaten des Roboters hinzugefügt, um eine end - to - end - Feinabstimmung durchzuführen, damit das Modell Bewegungsbefehle ausgeben kann.
Der größte Reiz dieser Vorgehensweise liegt in der "Kosteneinsparung". Sie versucht, die Infrastruktur von Large Language Modellen und Vision - Language Modellen wiederzuverwenden und das Lernen des Roboters zu einer "leichtgewichtigen" Feinabstimmungsaufgabe zu machen.
Investoren hören gerne diese Geschichte: Man muss nicht von Grund auf teure Interaktionsdaten aus der physischen Welt sammeln, sondern kann einfach auf die Schultern der Internetriesen setzen.
Aber es gibt ein Problem. Die Internetdaten haben das Modell gelehrt, dass "ein Apfel ein rotes, rundes Objekt ist", aber es nicht gelehrt, dass "ein Apfel sich bei einer Krafteinwirkung von 10 Newton verformt und möglicherweise wegrollt".
Die Videos im Internet sind alle geschnittene, dem menschlichen visuellen Geschmack entsprechende Sequenzen, die mit glatten Übergängen und großen Sprüngen in der Kausalität voll sind.
Wenn ein Becher vom Tischrand fällt, ist das nächste Bild oft, dass er bereits auf dem Boden zerschmettert ist oder von einer Hand festgehalten wird. Der entscheidende Moment - der Becher rutscht aus den Fingern, der Reibungskoeffizient ist zu gering, der Neigungswinkel ist zu groß - verschwindet für immer.
Das von VLA gelernten Physik ist eine "Pseudo - Physik" basierend auf oberflächlichen Assoziationen. Es weiß, dass "fallen" oft mit "zerbrechen" einhergeht, aber es versteht nicht, bei welchem Neigungswinkel ein mit heißem Kaffee gefüllter Glaskrug den Deckel aufgrund des instabilen Schwerpunkts selbst fallen lässt. Die RT - 2 - Publikation von Google DeepMind gibt auch zu, dass die Generalisierungsfähigkeit des Modells bei neuen Objektkombinationen oder Szenarien, die feine Kraftsteuerung erfordern, drastisch abnimmt.
Und weiter zeigt die Publikation von Physical Intelligence eine Realität auf: Selbst wenn man die Modellgröße um das Zehnfache erhöht und mehr Netzbilder einspeist, bleibt die Vorhersagefähigkeit des Modells für physikalische Interaktionen fast unverändert. Das Skalierungsgesetz in diesem Bereich stößt bei der physikalischen Interaktion auf Schwierigkeiten.
Deshalb ist die aktuelle VLA - Demonstration wie ein sorgfältig eingeübtes Magictrick.
Sie können nur in einem Bereich von 0,5 Quadratmetern im Labor mit drei oder fünf festen Gegenständen unter streng kontrollierter Beleuchtung und Hintergrund sehen, wie der Roboter reibungslos greift. Sobald man den Hintergrund ein wenig ändert oder ein reflektierendes oder transparentes Objekt hineinlegt, wird die Natur des "Gehirns im Tank" des Modells offenbar.
Es weiß nur die Antwort, aber nicht den Prozess.
Das Weltmodell ist keine Wundermittel, aber es ist die einzige Lösung
Die Popularität des Begriffs "Weltmodell" in letzter Zeit ist ähnlich wie die des Metaversums vor ein paar Jahren. Jeder spricht darüber, aber es scheint, dass niemand seine wahre Gestalt gesehen hat. Yann LeCun spricht in der AI - Abteilung von Meta den ganzen Tag über von Weltmodellen und hält sie für den Schlüssel zu echter Intelligenz. Huang Renxun von NVIDIA hat auch auf der GTC für es gestanden.
Im Kontext der Embodied Intelligence wird vom Weltmodell viel erwartet, aber in einigen Händen ist es fast zu einem Wortspiel geworden. Einige Teams gehen einfach und brutal vor: Sie packen einen fertigen physikalischen Simulationsmotor an den Ausgangspunkt von VLA, um diejenigen Aktionen, die den physikalischen Grundsätzen widersprechen, zu "korrigieren".
Beispielsweise gibt der Simulator eine "Kollisionswarnung" aus, wenn das Modell sagt, dass es durch den Tisch greifen soll, und stoppt den Arm.
Das heißt Weltmodell integrieren? Das heißt, schlechtem Code einen Patch verpassen.
Die echte Integration liegt im Kern in der Internalisierung.
Ein starkes Weltmodell sollte das "Unterbewusstsein" und das "Intuitionsmodul" von VLA sein, nicht ein externer Sicherheitsaufseher.
Es kann, bevor VLA eine Entscheidung trifft, die physikalischen Veränderungen in den nächsten Sekunden mit hoher Geschwindigkeit intern simulieren und umgekehrt die Generierung von Aktionen einschränken und leiten.
Wenn ich meine Hand hebe, um einen geworfenen Schlüssel zu fangen, plant mein Gehirn nicht zuerst die genaue Bahn meiner Finger und wartet dann auf visuelle Rückmeldungen, um die Bewegung zu korrigieren. Mein Gehirn hat ein internes Modell über "wie der Schlüssel in einer Parabel fliegt, wie groß der Luftwiderstand ist und wo er landet", das direkt meine Muskelgedächtnisse ansteuert und mich fast instinktiv in die richtige Körperhaltung bringt.
Die Arbeit von Li Feifeis Team am RoboAgent und einige neue Versuche gehen in diese Richtung. Sie lassen das Modell nicht nur lernen, "Becher sehen - Greifaktion ausgeben", sondern zwingen es auch, während es die Aktionen lernt, die Tiefenkarten, Objektsegmentierungskarten und sogar die Verteilung der Kontaktkräfte des nächsten Frames vorherzusagen.
Dies ist nicht nur die Erweiterung der Eingabe - und Ausgabekanäle. Es zwingt das Modell, sich von den Assoziationen der zweidimensionalen Pixel zu lösen und eine interne, dreidimensionale, kausale physikalische Repräsentation aufzubauen.
Wenn das Modell genau vorhersagen kann, dass "wenn ich die Flasche mit diesem Winkel und dieser Geschwindigkeit schiebe, wird sie in den nächsten 0,5 Sekunden nach rechts kippen", dann hat es die dynamischen Eigenschaften der Flasche wirklich "verstanden". Dann wird die Greifaktion nicht mehr so wie jetzt sein, entweder scheu und ängstlich, oder zu stark und die Flasche direkt wegschlagen.
Die Aussichten sind sichtbar. Roboterfirmen aller Größen haben bereits damit begonnen, eine solche Integration durchzuführen. VLA + Weltmodell wird mit verschiedenen Konzepten versehen und zur Branchenkonvention werden.
Jim Fans Ruf "Lange lebe WAM" ist im Wesentlichen auch eine solche Kombination.
In nicht zu langer Zeit werden alle seriösen Embodied Intelligence - Firmen in ihren technischen Weißbüchern schreiben: "Wir haben ein end - to - end - Weltmodell aufgebaut" oder ähnliche Konzepte, die VLA und Weltmodell integrieren - die Namen können unterschiedlich sein, es kann sogar immer noch VLA - Modell heißen, aber die Essenz ist die gleiche.
Der stille Krieg der Datenfabriken entscheidet, wer am Ende lächeln kann
Die Debatte darüber, ob VLA stirbt oder nicht und ob das Weltmodell funktioniert oder nicht, ist eigentlich ein wenig an der Oberfläche kratzen.
All diese Fragen der oberen Schichten führen schließlich zu einem der untersten, am wenigsten aufregenden Dinge: Daten.
Ein Mann, der in einer führenden menschoid - roboter - Firma für die Datenerfassung zuständig ist, sagte privat der "Intelligente Relativitätstheorie", dass ihr momentan nicht das Anpassen der Algorithmen am meisten Kopfzerbrechen macht, sondern eher die Frage, wie man die fernsteuernden Annotatoren davon abhält, einzuschlafen.
Um hochwertige Betriebsdaten zu sammeln, haben sie pensionierte alte Ingenieure eingeladen, der ganzen Tag mit Handschuhen einen Teil zu drehen. Aber die Hände der alten Herren zittern, und die Fernsteuerung der feinen Bewegungen funktioniert immer wieder nicht. Nach einem Tag Datenerfassung, nach dem Waschen und Ausrichten der Daten, können tatsächlich weniger als 10% an das Modell gefüttert werden.
Das ist nur eine Bewegung. Um VLA + Weltmodell tatsächlich lehren zu können, einen Kaffee zuzubereiten, muss es die Gewichtsänderung des Kessels, die Temperaturverteilung des Dampfs, die Stärke des Wasserstroms und das Material der Tasse kennen. Keine Internet - Bild - und Text - Datenbank kann diese Daten liefern.
Dies ist ein bisher nie dagewesener Krieg der Datenfabriken.
Der Grund, warum die Optimus - Team von Tesla von unzähligen Menschen beobachtet wird, ist nicht nur der Starstatus von Elon Musk, sondern vor allem, dass sie das "Shadow - Modus" und das Daten - Engine - System aus der autonomen Fahrzeugführung auf die Roboter übertragen. Jeder Erfolg und jedes Misserfolg von Optimus beim Drehen von Schrauben in der Fabrik wird automatisch annotiert, zurückgeführt und für die iterative Training verwendet. Dies ist ein furchtbarer, selbstversorgender Datenflughrad.
Im Vergleich dazu verwenden die meisten chinesischen Roboterfirmen immer noch das alte "Mannschaftsmodell". Sie mieten ein Areal von mehreren tausend Quadratmetern und laden wie in den früheren Datenannotierungsdörfern viele Leute ein, um Fernsteuerungen durchzuführen. Die Datenqualität ist uneinheitlich, und die Erfassungskosten sind hoch.
Dies führt direkt zu einem Ergebnis: Obwohl die Technologie Route von VLA + Weltmodell zur Branchenkonvention werden wird, wird die echte technische Barriere schnell von der Modellarchitektur selbst auf die Größe und Effizienz der Datenfabriken verlagert.
Der zukünftige Wettbewerb ist hierarchisch. Die oberste Ebene sind die Firmen, die ein "Grundmodell der physischen Welt" aufbauen können, wie OpenAI, Google DeepMind und NVIDIA. Sie bieten das unterste VLA - Grundmodell, das die grundlegenden physikalischen Gesetze verstehen kann.
Die mittlere Ebene sind die Roboterfirmen, die eine effiziente, riesige und vielfältige private Datenfabrik besitzen. Sie verwenden die "privaten Daten" aus ihren eigenen Szenarien, um das Grundmodell tiefgehend zu feinabzustimmen und dadurch Super - Expertenmodelle für bestimmte Bereiche (z. B. 3C - Montage, Gastronomie) zu bilden.
Firmen ohne effiziente Datenfabriken werden zu Distributoren der Grundmodellhersteller oder können nur in den Szenarien mit geringen technischen Anforderungen wie Inspektion und Führung um den Überlebenskampf kämpfen.
Daten, hochwertige Daten der physikalischen Interaktion, sind die einzige Munition, die VLA letztendlich verwenden kann. Ohne Munition ist auch die fortschrittlichste Waffe nur ein Holzstock.
Schauen Sie sich Physical Intelligence an, diese von einer Gruppe führender akademischer Größen gegründete Star - Firma. Seit diesem Jahr hat sie wild mit verschiedenen Fertigungs - und Logistikunternehmen Kooperationsvereinbarungen unterzeichnet. Sie interessiert sich nicht für die geringen Dienstgebühr, sondern für die realsten, schmutzigsten und unsichersten physikalischen Interaktionsdaten aus diesen Szenarien. Uber ist damals nicht durch Algorithmen aufgestiegen, sondern durch die Datenmonopol, das von den Privatwagen, die in den Straßen der Weltstädte fahren, gebracht wurde.
Der Uber - Moment der Embodied Intelligence ist noch nicht gekommen, aber die Countdown läuft.
Fazit
VLA ist nicht tot, es wächst nur. Das Zeichen dieses Wachstums ist, dass es aus der warmen Welt des Internets gerissen und in die Erde der physischen Welt geworfen werden muss.
Es muss das neue kognitive Organ des Weltmodells entwickeln