Weltmodell: Die "Erschaffung einer Welt" ist machbar, aber sie ist nicht die Zukunft, die die embodied KI anstrebt
Von VLA zu WAM: Eine überbewertete Revolution und eine unterschätzte Evolution.
In den letzten sechs Monaten gab es im Bereich der Embodied AI zwei der heißesten Medienhype. Einer gehörte dem Bildschirm: Von Sora bis hin zu verschiedenen Videogenerierungsmodellen haben diese nacheinander ihre Stärken gezeigt. Die Details eines umgekippten Wasserglases und die Bewegung von Personen in einem kontinuierlichen Raum haben die Erzählung von "AI schafft die Realität neu" auf den Höhepunkt getrieben, und die Rufe "Das Weltmodell ist da" haben sich wie wild verbreitet. Der andere gehörte dem Grabstein: Jim Fan, der leitende Forscher von NVIDIA, hat mit einem Meme-Bild, in dem ein WAM (World Action Model) vor dem Grabstein eines VLA (Visual-Language-Action Model) steht, verkündet: "VLA ist tot, lang lebe das Weltmodell!" Dies hat die Debatte über die verschiedenen Ansätze direkt in den Vordergrund gerückt. (Dieser Artikel befasst sich nur mit dem Weltmodell der Embodied AI.)
Beide Hype teilen dasselbe Schlüsselwort: Weltmodell.
Es ist jedoch paradox, dass je mehr Menschen im Bereich der Embodied AI darüber sprechen, desto unschärfer wird sein Gesicht. Manche nennen die Generierung von realistischen Videos Weltmodell, andere die Vorhersage von Robotereingriffen, wieder andere die Simulation von autonomen Fahrzeugen. Unter demselben Begriff verbirgt sich eine völlig unterschiedliche technische Zielsetzung und kommerzielle Motivation.
Die größte Gefahr des heutigen Weltmodells liegt nie in der "unklarken Definition", sondern darin, dass alle Menschen es anhand dessen, was am einfachsten zu zeigen und am ehesten zu einer Medienwirkung führt, definieren. Wenn die Technikshow des "Schaffens einer Welt" die Essenz des "Nutzens der Welt" überdeckt, wird das Weltmodell von den besten Geschichtenerzählern weg von seinem eigentlichen Ziel gebracht: der realen physischen Welt der Physical AI.
Das Weltmodell braucht natürlich die Fähigkeit, eine Welt zu schaffen. Ohne diese beeindruckenden Generierungsdemonstrationen würde es nicht so schnell in die Öffentlichkeit und in die Augen der Investoren geraten. Aber für die Physical AI-Industrie ist die Generierung einer Welt nur der Anfang des Problems. Die Welt muss schließlich kontrolliert, validiert und korrigiert werden, um schließlich ein Vorhersagesystem und Entscheidungsgrundlage für Maschinen zu werden. Die Videogenerierung kann die Türen des Weltmodells öffnen, aber sie kann nicht den Weg in die reale physische Welt gehen.
Wir fehlen nie an neuen Konzepten und Erzählungen. Die Embodied AI wird sicherlich ihren eigenen generellen Weg finden. Wenn das passiert, wird es vielleicht gar nicht mehr wichtig sein, ob dieser Weg VLA, WAM oder einen anderen Namen trägt.
Schließlich ist es bereits in unser Leben integriert.
Das Weltmodell ist nicht gleichbedeutend mit "Bildgenerierung"
Erinnern Sie sich noch an Sora?
Als OpenAI Sora veröffentlichte, lautete der Titel des Berichts "Video generation models as world simulators". Es wurde damit angekündigt, dass Videogenerierungsmodelle ein möglicher Weg zu einem "allgemeinen Simulator der physischen Welt" sein könnten. Die in Sora gezeigten Langvideos mit Kamerabewegungen, lokaler 3D-Konsistenz und der Fähigkeit, den Zustand von Objekten aufrechtzuerhalten, haben die Öffentlichkeit erstmals direkt dazu gebracht zu spüren: Es scheint, als würde die AI tatsächlich lernen, "eine Welt zu bauen". Im Vergleich zu Texten und Bildern entspricht Video natürlicher der menschlichen intuitiven Wahrnehmung von "Welt" – mit Zeit, Raum, Bewegung und kontinuierlichen Veränderungen. Dies lässt leicht den Eindruck entstehen, dass das Modell die physikalischen Gesetze verstanden hat.
Diese Fähigkeiten eignen sich natürlich für Präsentationen und ziehen am leichtesten die Aufmerksamkeit von Investoren und Medien auf sich. Mit der Zeit ist die Annahme "Videogenerierung = Weltmodell" für viele Menschen der Standard geworden.
Dies ist natürlich nicht falsch. In digitalen Szenarien ist die Videogenerierung ein effizienter Ansatz, und es sind bereits viele Unicorn-Unternehmen aufgetaucht. Ihre Produkte können in der Spieleindustrie zur Echtzeitgenerierung dynamischer Szenen eingesetzt werden, was sowohl die Kosten für die Grafik verringert als auch die Freiheit der Spieler erhöht. In Bereichen wie Luft- und Raumfahrt sowie Hochtechnologiefertigung, in denen die Kosten für Fehlversuche hoch sind, kann es auch genutzt werden, um die Testgrenzen zu erweitern und die Simulationsszenarien zu bereichern, was ebenfalls einen klaren kommerziellen Nutzen hat. In diesem Fall ist die generierte "Welt" nicht ein Bild für die Zuschauer, sondern eine interaktive und fehlerbehaftete Simulationsumgebung.
Der echte Missverständnis tritt auf, wenn es um die Übertragung zwischen verschiedenen Bereichen geht, wenn das Weltmodell auf die Embodied AI trifft. Viele Menschen gehen davon aus, dass ein Modell, das eine kontinuierliche und realistische digitale Welt generieren kann, auch die Fähigkeit hat, die physische Welt zu verstehen, vorherzusagen und zu handeln.
Wang Zhongyuan, der Direktor des Beijing Academy of Artificial Intelligence, hat dies treffend bemerkt: Die derzeit weit verbreitete Videogenerierungstechnologie, die als Repräsentant des Weltmodells angesehen wird, ist im Wesentlichen nur eine pixelbasierte Weltimulation. "Ein Videogenerierungsmodell kann eine Gruppe von Schweinen im Himmel mit einem Flugzeug fliegen lassen, weil seine Trainingsdaten viele Science-Fiction-Filme enthalten. Sein Ziel war nie, die Gesetze der realen physischen Welt wiederzugeben."
Ein klassisches Embodied-Szenario verdeutlicht den Unterschied: Das Greifen eines Glases. Ein Modell kann ein Glas von verschiedenen Perspektiven mit konsistenter Optik generieren. Dies ist die visuelle Konsistenz, die es aus Videodaten lernen kann. Aber wenn man es anfassen will, wie groß ist die Reibung? Kann das Material die entsprechende Greifkraft aushalten? Wenn das Glas auf dem Tisch landet, ist es, weil das Modell "Gläser stehen normalerweise auf dem Tisch" gelernt hat, oder weil es wirklich die Schwerkraft, die Stützkraft und die Kontaktbeschränkungen versteht? Die komplexen mechanischen Reaktionen, die Zustandsänderungen nach dem Kontakt und die kausalen Beschränkungen der realen physikalischen Gesetze können nicht von einem generierten Video abgedeckt werden. Wenn ein querfahrendes Auto generiert wird und ohne Überprüfung in die Trainingskette eines autonomen Fahrzeugs aufgenommen wird, wird die reale physische Welt früher oder später eine schwere Rache nehmen.
Mit anderen Worten, die Videogenerierung ist eine Form des Weltmodells, die in vielen Szenarien bereits umgesetzt wurde, aber sie ist keinesfalls das Weltmodell, das die Embodied AI braucht, und erst recht nicht die Kernform im Kontext der Physical AI. Die Definition des Weltmodells der Embodied AI anhand der visuellen Wirkung des "Schaffens einer Welt" bedeutet im Wesentlichen, die Probleme der physischen Welt mit dem Maßstab der digitalen Welt zu messen.
Is VLA dead? Das Weltmodell ist keine Revolution, sondern eine Ergänzung
Die Erzählung "VLA ist tot, WAM übernimmt" ist die beliebteste in der Branche.
In den letzten zwei Jahren war VLA der vorherrschende Ansatz in der Embodied AI. Es folgt dem Vorgehen der Vorhersage von Large Language Models und baut über eine riesige Menge an Fernbedienungsdaten eine Abbildung von "Wahrnehmung - Befehl - Aktion" auf, um Roboter von mechanischen Wiederholungen zu verstehen und komplexe Aufgaben zu lösen. Alle führenden Spieler in der Branche haben VLA als Kerntechnologie eingesetzt.
Aber die Schwächen von VLA sind auch sehr deutlich: Im Wesentlichen handelt es sich um eine Erinnerung und Abbildung durch Imitationslernen, die eine tiefe Verständnis der physikalischen Gesetze fehlt. Sobald es auf neue Szenarien oder Objekte trifft, die nicht in den Trainingsdaten enthalten sind, versagt seine Generalisierungsfähigkeit schnell. Der von Jim Fan vorgeschlagene WAM-Ansatz zielt genau auf dieses Problem ab. Sein Kernkonzept besteht darin, von der "semantischen Verständnis" zur "physikalischen Vorhersage" zu wechseln: Anstatt direkt Aktionen auszugeben, wird zunächst der zukünftige Zustand der Welt vorhergesagt, und dann werden die Aktionen daraus abgeleitet. Dies entspricht einer "Vorhersage" der Konsequenzen im Kopf des Roboters, bevor er handelt, um seine Anpassungsfähigkeit an unbekannte Szenarien zu verbessern.
So hat sich die "Revolutionshypothese" schnell verbreitet. VLA ist ein veraltetes Paradigma, und das Weltmodell ist die nächste Generation der Lösung für die Embodied AI. Aber in der realen Branchenpraxis ist die Sache nicht so einfach wie "entweder lebendig oder tot".
Die Branche teilt sich in zwei klare Richtungen auf, die unterschiedlichen technischen Philosophien und kommerziellen Interessen entsprechen:
Eine Richtung ist die von Silicon Valley geführte "Ersatzpartei". Repräsentiert durch NVIDIA und Google DeepMind, streben sie unter Nutzung ihrer reichen Rechenleistung und Datenressourcen eine vollständige Paradigmenwende an. NVIDIA hat in Cosmos 3 Sprache, Bilder, Videos und Aktionssequenzen in ein einheitliches Physical AI-Weltmodell integriert, um die Generierung, Simulation und Aktionsvorhersage nicht mehr als getrennte Module zu behandeln. Das von Waymo und Google DeepMind entwickelte Waymo World Model nutzt die Fähigkeiten des Genie 3-Modells nicht nur zur Generierung von seltenen Wetterbedingungen oder Tier-Einschlüssen, sondern vor allem, um diese Szenarien durch Fahrmanöver, Straßenlayout und Sprachbefehle zu steuern, um das Verhalten von autonomen Fahrzeugen in kontrafaktischen Situationen zu testen.
Dieser Ansatz ist am ambitioniertesten und entspricht am besten der "Revolutionserzählung", aber er hat auch sehr hohe Anforderungen und ist daher hauptsächlich für die großen Konzerne geeignet.
Die andere Richtung ist die in China weit verbreitete "Fusionspartei". Die meisten Unternehmen haben sich nicht für einen Neuanfang entschieden, sondern integrieren das Weltmodell als Ergänzung in die bestehende VLA-Architektur. In Mai 2026 hat Zhipingfang das VLA-Embodied Large Model AlphaBrain veröffentlicht. Es basiert auf der Funktionsaufteilung des menschlichen Gehirns in "Großhirn - Kleinhirn - Rumpf" und integriert die "Vorhersage"-Fähigkeit des Weltmodells in die VLA-Architektur durch die Zusammenarbeit von "langsamen" und "schnellen" Systemen. Der langsame System ist für die Wahrnehmung der Umgebungsituation und die Planung von Hochschichtverhaltensweisen zuständig, während der schnelle System für die feine Sensorik und die schnelle Rückmeldung verantwortlich ist. Guo Yandong, der Gründer von Zhipingfang, ist sehr direkt: "Das Weltmodell und VLA widersprechen sich überhaupt nicht. Sie sind eigentlich ein Zweig derselben Technologie. Wenn man komplexere Vorhersagetasks durchführen möchte, braucht man Weltmodell + VLA oder die Integration von Weltmodell und VLA."
Yinhe General hat auch einen großen Fortschritt gemacht. Das im April dieses Jahres veröffentlichte LDA-1B-Modell führt in einem einheitlichen Rahmen gleichzeitig Strategie-Lernen, physikalische Vorhersage und visuelle Wahrnehmung durch und hat erstmals auf industrieller Ebene mit einer Parametrisierung von 1 Milliarde die Einheit von Weltmodell und Aktionsmodell erreicht. Die Ergebnisse wurden in die führende Roboterkonferenz RSS aufgenommen, und das Modellgewicht und der Trainingscode wurden veröffentlicht. Sie kümmern sich nicht darum, "VLA oder Weltmodell" zu wählen, sondern lassen Vorhersage und Ausführung denselben Modell nutzen, um die Stärken zu nutzen und die Schwächen zu kompensieren.
Nach unserer Meinung gibt es keine absolute Richtigkeit oder Falschheit zwischen "Ersatz" und "Fusion". Es sind nur verschiedene Entscheidungen in verschiedenen Phasen. VLA wird nicht wirklich "sterben", und das Weltmodell ist keine Revolution, die alles umstürzt. Es ergänzt die fehlende physikalische Vorhersagefähigkeit von VLA. Die endgültige Beziehung zwischen beiden wird eher eine schichtweise Zusammenarbeit sein, als dass es ums Überleben geht. Was wirklich über die Siege und Niederlagen der Richtungen entscheidet, ist nie, wie neu und aufregend das Konzept ist, sondern wer zuerst die Kette von Daten, Simulation und Realisierung auf Maschinen durchlaufen kann, um Roboter wirklich in die reale Welt zu bringen.
Das Weltmodell hat noch nicht seinen praktischen Einsatz gefunden, aber es wird bereits ein Konzept-Hype geschürt
Wenn die Popularität eines Konzepts der technischen Umsetzung vorausläuft, ist die Entstehung von Blasen fast unvermeidlich. Im gegenwärtigen Weltmodell-Markt sind bereits mindestens drei Arten von Blasen aufgetaucht, die man beachten sollte.
Die erste ist die Definitionsblase. Heute ist das "Weltmodell" zu einem Sammelbegriff geworden, in den alles hineingesteckt werden kann. Yann LeCun sieht es als die Vorhersage des Weltzustands auf einer abstrakten Ebene, Li Feifei definiert es als eine interaktive 3D-Raumdarstellung, NVIDIA positioniert es als einen generativen Simulator für Physical AI. In Start-up-Unternehmen nutzen einige die Videogenerierung als Ersatz, andere benennen einfach einen traditionellen Simulationsmotor um und nennen ihn Weltmodell. Es gibt bereits mehrere Dutzend chinesische Unternehmen, die behaupten, sich auf Weltmodelle zu konzentrieren, aber sie sprechen vielleicht gar nicht über dasselbe Ding. Wenn ein technisches Konzept unbegrenzt interpretiert werden kann, verliert es oft seine Bedeutung als technisches Maßstab. Hinter der Generalisierung der Definition steckt die gemeinsame Motivation von Finanzierungsbedarf und Marketingerzählung. Nach alledem klingt "Weltmodell" immer noch wertvoller als "Videogenerierungstool" oder "Simulationsoptimierungslösung".
Die zweite ist die Rechenleistungblase. Der Hauptansatz für das Training von Weltmodellen basiert auf einer riesigen Menge an Videodaten und einer enormen Rechenleistung, und dies ist genau das Terrain von NVIDIA. Huang Renxun hat auf der GTC-Konferenz direkt gesagt, dass bis 2027 die Blackwell- und Rubin-Chips sowie die dazugehörigen Systeme, die für Embodied AI-Modelle und andere Anwendungen entwickelt wurden, NVIDIA mindestens 1 Billion US-Dollar an Einnahmen bringen werden. In gewisser Weise entspricht die von den führenden Silicon Valley-Spielern unterstützte "Allmodus-allgemeines Weltmodell"-Richtung genau der kommerziellen Logik von NVIDIA, "Rechenleistungsinfrastruktur zu verkaufen". Aber die Einstiegshürde für die meisten Unternehmen ist fast unüberwindbar. Selbst kleine und mittlere Teams, die sich bisher auf VLA konzentriert haben, können die so hohen Kapitalkosten nicht tragen, geschweige denn, dass sie von Grund auf in den Weltmodell-Markt eintreten können. Wenn alle über dieselbe Rechenleistungshöchstanspruchung sprechen, aber nur wenige die Kosten-Nutzen-Relation berechnen können, ist dies bereits ein Signal für eine Blase.
Die dritte und am gefährlichsten ist die Einsatzblase. Alle Konzept-Erzählungen müssen schließlich dieselbe Frage beantworten: Kann es wirklich die Leistung von realen Maschinen verbessern? Die Realität ist, dass die Kluft zwischen Simulation und Realität nicht automatisch verschwindet, wenn man den Namen des Modells von VLA auf WAM ändert. Ein kleiner Fehler wie ein Modellüberlapp, Antigravitation oder eine unscharfe Grenze in einem Video kann in der Robotertraining zu einer fehlerhaften physikalischen Wahrnehmung führen. Eine scheinbar vernünftige, aber physikalisch unrichtige Vorhersage kann den realen Maschinen sogar noch schlimmer schaden als das Training ohne Modell.
Shen Yujun, der Chief Scientist von Ant Lingbo, hat den Kernunterschied aufgedeckt