Weltmodellgetrieben: Embodied AI verläßt die Ära des "blinden Handelns"
Embodied Intelligence befindet sich in einer stummen Paradigmenwende.
Anfang 2026 hat LingBo von AntGroup nach der Veröffentlichung eines Raumwahrnehmungsmodells, eines Embodied Large Models und eines Weltmodells ein weiteres Embodied Weltmodell namens LingBot - VA Open - Source gemacht. LingBot - VA hat erstmals ein "autoregressives Video - Aktion" - Weltmodellierungsframework entwickelt, das es Robotern ermöglicht, ähnlich wie Menschen "während des Planens zu handeln". Bislang hat es in Bezug auf die Erfolgsquote von Aufgaben einen Anstieg von 20 % gegenüber dem international führenden Pi - 0.5 erreicht. Motus, das von Shengshu Technology in Zusammenarbeit mit der Tsinghua Universität Open - Source gemacht wurde, hat erstmals die "Sehen - Denken - Handeln" - Schleife realisiert. Bei den Tests von 50 allgemeinen Aufgaben hat es die absolute Erfolgsquote gegenüber Pi0.5 um 35 % verbessert.
Fast zur gleichen Zeit haben Teams von Stanford und NVIDIA gemeinsam das Cosmos Policy veröffentlicht, das es ermöglicht, dass "Roboteraktionen nur mit einem Videogenerierungsmodell gelernt werden können". NVIDIA hat anschließend DreamZero veröffentlicht, das durch "gemeinsame Vorhersage von zukünftigen Videos + entsprechende Aktionen (starke Ausrichtung zwischen visuellen Plänen und Bewegungsbefehlen)" Physik und Fähigkeiten lernt.
Die Stimmen aus der akademischen Welt stimmen mit den Forschungsrichtungen der oben genannten Modelle überein. Der Turing - Preis - Gewinner und Pionier des Deep - Learnings Yann LeCun meint, dass nur wenn KI die Fähigkeit hat, wie Menschen "die Zukunft vorherzusagen", komplexe Planungen durchführen kann. Es gibt bereits Unterschiede in den technischen Ansätzen. Die Sim - to - Real - Simulationsschule und die "Internetdaten + echte Daten" - Schule laufen parallel, und der Trend zur Entkopplung von Hardware und Software bei "einem Gehirn für mehrere Maschinen" beschleunigt sich. Eine Reihe von Open - Source - Modellen aus China und aus dem Ausland bieten eine wiederverwendbare und verifizierbare technische Grundlage für das neue Paradigma der Forschung in der Embodied Intelligence.
01. "Während des Planens handeln": Lösung des Problems des "langfristigen Drifts" in der Embodied Intelligence
Das Weltmodell stammt aus der Forschung in der Kognitionspsychologie über "hypothetisches Denken". Sein Kernziel ist es, dass ein Agent eine interne Repräsentation der Umgebung aufbauen und vorhersagen kann, wie seine Handlungen den Zustand der Umgebung verändern werden.
Frühe Weltmodelle konzentrierten sich auf die Komprimierung und Vorhersage von Wahrnehmungssignalen wie Videoframes. Moderne Embodied Weltmodelle richten sich direkt an die Regeln und Einschränkungen der physischen Welt. Dies bedeutet, dass ein trainiertes Weltmodell nicht nur vorhersagen kann, wie das nächste Bild aussehen wird, sondern auch verstehen kann, wie ein Ball nach dem Werfen fällt und ob Flüssigkeit verschüttet wird, wenn ein Roboterarm eine Tasse hebt.
Genau diese "Zukunft vorherzusagen" - Fähigkeit ist die Voraussetzung für die von Yann LeCun betonte komplexe Planung. Anfang 2026 begann diese theoretische Vorstellung in eine verifizierbare technische Realität umzuwandeln.
LingBot - VA hat erstmals das "autoregressive Video - Aktion" - Weltmodellierungsframework vorgeschlagen, das ein großes Videogenerierungsmodell und die Roboterkontrolle tiefgehend integriert. Das Modell kann bei der Generierung des "nächsten Weltzustands" direkt die entsprechende Aktionsequenz planen und ausgeben, sodass Roboter ähnlich wie Menschen "während des Planens handeln" können.
Motus hat erstmals fünf Hauptparadigmen von Embodied Basismodellen wie VLA (Visuelles Sprach - Aktionsmodell), Weltmodell, Videogenerierungsmodell, inverses Dynamikmodell und Video - Aktion - gemeinsames Generierungsmodell in einem einzigen Framework vereinheitlicht und einen einheitlichen Modellierungsweg für "Wahrnehmung, Inferenz, Handlung" aufgebaut.
Das Cosmos Policy von NVIDIA und Stanford bietet einen anderen technischen Ansatz. Der Kern dieses Modells liegt in seiner starken Planungsfähigkeit, die die Konsequenzen von Aktionen genauer vorhersagen kann. Bei schwierigen Aufgaben gibt das Modell nicht nur eine Aktion an, sondern gibt zuerst Vorschläge: Das Planungsmodell schlägt zuerst N mögliche Aktionsequenzen vor; dann stellt es sich die Zukunft vor: Es nutzt das Weltmodell, um für jede Aktion die zukünftigen Bilder nach der Ausführung vorzustellen; danach bewertet es: Es benutzt die Wertfunktion, um diese zukünftigen Bilder zu bewerten; und schließlich wählt es die beste aus und führt sie aus: Es wählt die Aktion mit der höchsten Bewertung aus und führt sie aus.
Experimente zeigen, dass diese modellbasierte Planung bei extrem herausfordernden Aufgaben viel höhere Erfolgsquoten hat als das bloße Ausführen von Aktionen. Die Erfolgsquote bei komplexen Aufgaben steigt um 12.5 %.
Während das Cosmos Policy im Ausland neue Rekorde setzt, lässt auch das chinesische LingBot - VA die alten Rekorde hinter sich.
Bei der echten Robotertestung kann LingBot - VA bei langen Zeitreihenaufgaben wie dem Zubereiten des Frühstücks und dem Aufnehmen von Schrauben, bei Hochpräzisionsmanipulationen wie dem Einführen in ein Röhrchen und dem Öffnen von Paketen sowie bei der Handhabung flexibler Objekte wie dem Falten von Kleidung und Hosen mit nur 30 - 50 Demonstrationsdaten anpassen. Die Erfolgsquote steigt im Durchschnitt um 20 % gegenüber Pi - 0.5. Auf der Simulationsebene hat es erstmals die Erfolgsquote auf über 90 % auf der Zweiarm - Kooperationsbasis RoboTwin 2.0 und auf 98.5 % auf der Langzeitreihen - Lebenslanges Lernen - Basis LIBERO erhöht, was beide Branchenrekorde aufstellt.
Coowa Technology hat kürzlich bei der Einführung des COOWA WAM 2.0 von einem anderen Blickwinkel die Wichtigkeit der Inferenz erzählt.
In den letzten zehn Jahren gründete der Erfolg des Deep - Learnings hauptsächlich auf "selbstüberwachtem Lernen, das von einer großen Menge echter Daten angetrieben wird". Obwohl die Vokabeln und Grammatikregeln von Sprachsystemen riesig sind, sind sie dennoch begrenzt. Die meisten neuen Stichproben fallen in die bestehende semantische Mannigfaltigkeit. In der physischen Welt jedoch ist die Anzahl der Zustände und Interaktionen fast unendlich, und die Konsequenzen von Aktionen können nicht nur aus historischen Koinzidenzmustern abgeleitet werden.
Aufgrund der Irreversibilität der physischen Welt kann die Embodied Intelligence nicht wie beim Training von AlphaGo unendlich viele Fehlversuche in der realen Welt machen. Allgemeinverwendbare Roboter müssen die Fähigkeit der Gegenfaktischen Inferenz (Counterfactual Reasoning) einführen, d. h. Roboter müssen sich vor der Ausführung einer Aktion in ihrem Kopf vorstellen, "wie die Welt aussehen würde, wenn ich dies tue". Dies ist die Bedeutung von WAM.
Das von DreamZero vorgeschlagene WAM springt aus dem Rahmen des VLA (Visuelles Sprach - Aktionsmodell) heraus. Durch die gemeinsame Vorhersage von zukünftigen Videoframes und Roboteraktionen lernt es die physikalische Dynamik der Welt aus Videos. Dadurch werden die Probleme der schlechten Generalisierung von physikalischen Bewegungen, der Abhängigkeit von wiederholten Demonstrationsdaten, der Schwierigkeit bei der Übertragung zwischen verschiedenen Formen und des Mangels an Raumwahrnehmung und Dynamik grundlegend gelöst. Coowa Technology ist auch ein Anhänger der Verlagerung von "Aktionswiederholung" zu "Planungsinferenz" und hat den Sprung von einem Imitator zu einem Denker geschafft.
02. Internetdaten + echte Daten: Ein schwierigerer, aber richtigerer Weg
Verschiedene Anzeichen zeigen, dass "von der Imitationsexekution zu Vorüberlegung und danach Handlung" zur Konsensrichtung in der Embodied Intelligence wird. Ein weiterer Konsens zeigt sich bei der Wahl der Datenroute.
Sehen wir uns die einst vorherrschende Wahl von Sim - to - Real (von der Simulation zur Realität) an: Zuerst wird in einer virtuellen Umgebung massiv trainiert, und dann wird die erlernte Strategie auf den realen Roboter übertragen. Der Vorteil dieses Ansatzes ist offensichtlich. Simulationsdaten sind billig und ermöglichen unendliche Fehlversuche. Der Engpass liegt in den "Blindflecken" der Simulation. Die Hydrodynamik, die Verformung flexibler Objekte und die Sensorfehler - diese physikalischen Details der realen Welt sind schwer in der Simulation genau zu modellieren, und die Lösung dieser Probleme kann länger dauern als die Reduzierung der Kosten für die Erfassung echter Daten.
Das grundlegendere Problem ist, dass die kombinatorische Komplexität der physischen Welt fast unendlich ist. Die Konsequenzen von Aktionen können nicht nur aus historischen Koinzidenzmustern abgeleitet werden, und die akkumulierten Fehler werden in langen Sequenzentscheidungen immer größer.
Shen Yujun, der Chefwissenschaftler von LingBo von AntGroup, sagte direkt: "Sim - to - Real ist nicht unsere Haupttechnikroute." Die Lösung von LingBo von AntGroup ist die Kombination von Internetdaten und echten Daten.
"Wir haben festgestellt, dass die Verwendung von Daten aus der physischen Welt für eine zusätzliche Vorhersage sehr hilfreich ist, um die Fähigkeit des Embodied Modells zu verbessern", sagte Shen Yujun. Diese Strategie wurde an LingBot - VLA bestätigt. Basierend auf über 20.000 Stunden hochwertiger echten Roboterdaten von neun gängigen Konfigurationen hat dieses Modell in autoritativen Tests eine Reihe international führender Baselinewerte übertroffen.
Das COSMOS Policy bietet auch einen wichtigen Beweis. Dieses Modell ist eine SOTA - Roboterkontrollstrategie mit einem Videogenerierungsmodell als Kern, die die Videogenerierungsfähigkeit in die Aktionskontrolle umwandelt, anstatt auf Bild - Text - Vorhersage zu basieren.
Das Team hat umfassende Tests in der Simulationsumgebung und in der realen Welt durchgeführt. Insbesondere in der LIBERO - Liste der Simulationsumgebungstests hat das COSMOS Policy eine durchschnittliche Erfolgsquote von 98.5 % erreicht und damit einen neuen Rekord aufgestellt. Auf realen Robotern hat das Cosmos Policy vier hochschwierige Aufgaben gemeistert und sich ausgezeichnet bewährt. Insbesondere bei der schwierigsten Aufgabe "Kaugummis in eine Verschlussbeutel packen" konnte es den Beutelrand präzise greifen. Dies beweist, dass das beste Roboterhirn möglicherweise ein Videomodell ist, das Tausende von Videobändern gesehen hat.
Zugleich lässt die Kombination von Internetdaten und echten Daten das Scaling Law (Größenregel) in der physischen Welt sichtbar werden.
Die Forschung an LingBot - VLA zeigt, dass wenn die Trainingsdaten von einigen tausend Stunden auf die Größenordnung von 20.000 Stunden erweitert werden, die Generalisierungsfähigkeit des Modells deutlich verbessert wird, was sich beispielsweise in der Erhöhung der Erfolgsquote bei Aufgabenübergreifenden, Gegenstandsübergreifenden und Umgebungsübergreifenden Szenarien zeigt. Dies bedeutet, dass die Embodied Intelligence nicht mehr nur auf "manuelles Parametern einstellen + Einzel - Demo" basiert, sondern sich einem ingenieurmäßigen Weg von "skalierbarem Training + übertragbarer Basis" nähert.
Die echten Robotertests von Motus haben auch diese Regel bestätigt.
In den Data Scaling - Experimenten kann Motus im Vergleich zum international führenden VLA - Modell Pi0.5 aus einer breiteren Vielfalt von Datentypen lernen und die von mehr vorgetrainierten Basismodellen angebotenen Vorwissen effektiver integrieren. Bei der durchschnittlichen Erfolgsquote von 50 Aufgaben hat Motus gegenüber Pi0.5 eine absolute Erfolgsquote - Steigerung von 35.1 % erreicht. Gleichzeitig zeigt es bei gleicher Leistungsfähigkeit eine 13.55 - fache Dateneffizienz. Durch die Einführung reichhaltiger und heterogenerer multimodaler Vorwissen kann Motus unter der Wirkung des Scaling Law effizienter eine allgemeinere Intelligenzfähigkeit entwickeln.
Die Testergebnisse von LingBot - VLA, Motus und COOWA WAM weisen alle auf einen Punkt hin: Die Rückkopplungsschleife aus der realen Welt ist unerlässlich. Dies erklärt auch, warum mehrere große Modelle in letzter Zeit den Mechanismus von "während des Planens handeln" anwenden: Sie versuchen, die physikalischen Gesetze zu verstehen, anstatt Simulationsdaten auswendig zu lernen.
03. Der Open - Source - Weg: Ist der "Android - Moment" der Embodied Intelligence gekommen?
Der technische Durchbruch ist nur das erste Halbum. Die Umstrukturierung der industriellen Arbeitsteilung ist das Endspiel.
Die traditionelle Roboterei - Branche steckt in der Schwierigkeit des "wiederholten Erfindens des Rades": Bei jeder neuen Aufgabe oder jeder neuen Roboterkonfiguration müssen neue Daten gesammelt und Parameter eingestellt werden, was die Ingenieurskosten extrem hoch macht. Razzag, der Herausgeber und CEO von MarkTechPost, einem der zentralen AI - Industrie - Nachrichtenportale in Silicon Valley, hat darauf hingewiesen, dass dies der Kernhindernis ist, warum es schwierig ist, Roboter von der Pilotphase zur Massenimplementierung zu bringen: Die verborgenen Kosten der "Wiederholungstraining / Neutraining" werden stark unterschätzt.
Das Konzept von "einem Gehirn für mehrere Maschinen" und die Entkopplung von Hardware und Software brechen diese Stagnation.
"Wir konzentrieren uns stärker auf die Entwicklung von Basismodellen. Wir haben uns von Anfang an entschieden, einen konfigurationsübergreifenden Weg zu gehen und arbeiten intensiv mit branchenrelevanten Datenanbietern zusammen, um die Vielfalt der Trainingsdaten für das Modell zu gewährleisten", sagte Zhu Xing, der CEO von LingBo von AntGroup.
Derzeit ist das LingBot - VLA - Basismodell von LingBo von AntGroup auf neun gängige Roboterkonfigurationen angepasst worden, was die Machbarkeit der Übertragung zwischen verschiedenen Robotertypen beweist. Dies bedeutet, dass wenige allgemeine Embodied Gehirne verschiedene Arten von Roboterarmen, Fahrwerken und Greifhänden steuern können. Kleine und mittlere Hardwarehersteller können sich auf die Genauigkeit und Haltbarkeit der Aktuatoren konzentrieren und die Softwarefähigkeiten durch die Verwendung des Basismodells erhalten. Das Forschungs - und Entwicklungsparadigma wandelt sich von der individuellen Nulltraining zu der Anpassung auf der Basis des Basismodells.
Dieser Trend ähnelt stark dem "Android - Moment" der Smartphones: Die Betriebssystemebene vereinheitlicht die Schnittstellen zwischen Hardware und Software, und die Anwendungsentwicklungsebene entfaltet die Innovationskraft. Der Unterschied besteht darin, dass das Betriebssystem der Embodied Intelligence noch nicht festgelegt ist, und der Open - Source - Ansatz wird zu einer Schlüsselvariablen für die Beschleunigung der Konvergenz.
Die Strategie von LingBo von AntGroup ist "sättigender Open - Source - Ansatz": Innerhalb einer Woche hat es vier Kernmodelle namens LingBot - Depth (Raumwahrnehmung), LingBot - VLA (Intelligenzbasis), LingBot - World (Weltmodell) und LingBot - VA (Embodied Weltmodell) veröffentlicht. Durch die Bereitstellung einer effizienten "Nach - Training - Toolkette" können Hardwarehersteller die "Gehirne" auf ihre "Körper" mit weniger Daten und geringeren GPU - Kosten (Grafikprozessoren) anpassen. Zhu Xings Logik ist klar: "In der frühen Phase, in der die Route noch nicht festgelegt ist, ist der Open - Source - Ansatz die beste Lösung, um den Branchenfortschritt voranzutreiben."
Das internationale Open - Source - Ökosystem hat ebenfalls aktiv reagiert. Das von NVIDIA und Stanford gemeinsam veröffentlichte Cosmos Policy hat das Modell und den Code Open - Source gemacht. NVIDIA hat bei DreamZero die Modellgewichte, den Inferenz