StartseiteArtikel

Zwei Papers von NVIDIA bringen ein neues Paradigma für Embodied Intelligence nach VLA mit sich.

36氪的朋友们2026-02-11 17:13
Wir beginnen, Roboter zu träumen zu lehren.

Im Jahr 2025 war das beliebteste Schlagwort im Bereich der Embodied Intelligence (eingebettete Künstliche Intelligenz) VLA (Visual-Language-Action-Modell).

Es wurde zur Branchenkonsens und zur Standardlösung für grundlegende Embodied-Intelligence-Modelle. In den letzten zwölf Monaten strömten Kapital und Rechenleistung in diesen Bereich. Fast alle großen Modellhersteller nutzen dieses Paradigma.

Aber bald wusch die reale Welt kalte Wasser über die Hoffnungen der Branche. Denn das VLA ist schwach bei der Ausführung physischer Aktionen.

Es kann komplexe Textbefehle verstehen. Aber wenn ein Roboterarm versuchen soll, ein Objekt zu greifen, kann es vielleicht nicht einmal die richtige Handgelenksposition einnehmen, um einen Bechergriff zu umgehen. Ganz zu schweigen von komplexen Aktionen wie das Lösen von Schuhesen.

Ein weiteres Problem des VLA ist die Generalisierung. Das Ziel der Modellaktualisierung war es, nicht für jede spezielle Umgebung programmieren zu müssen, sondern die Generalisierungsfähigkeit großer Modelle zu nutzen. Aber jetzt kann das VLA kaum Aktionen außerhalb seiner Trainingsumgebung generalisieren, selbst in ähnlichen Umgebungen.

Die Branche hat die Schwäche der Generalisierung auf unzureichende Daten zurückgeführt. Die großen Hersteller haben Milliarden in die Datenerfassung investiert, um die Wissenslücken des VLA zu schließen.

Im Januar 2026 veröffentlichte NVIDIA zwei Papers: "DreamZero: World Action Models are Zero-shot Policies" und "DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos". Sie haben ein neues Paradigma für grundlegende Embodied-Intelligence-Modelle geschaffen und die Dateninflation überwunden.

Zusammen eröffnen sie die Möglichkeit, ein Embodied-Intelligence-Modell zu entwickeln, das aus Videos lernt und ohne Vorbeispiele (Zero-shot) verschiedene Aufgaben generalisiert ausführen kann.

01 Das VLA fehlt nicht an Daten, sondern an einem Weltmodell

Um die Revolutionäre Bedeutung von DreamZero und DreamDojo zu verstehen, müssen wir zunächst die systemischen Mängel des VLA analysieren.

Das größte Problem des VLA ist der Mangel an einem Weltmodell. Die Architektur des VLA begrenzt seine kognitive Fähigkeit. Aus genealogischer Sicht ist das VLA näher verwandt mit LLM als mit reinen visuellen oder physischen Modellen. Es nutzt die Cross-Attention-Mechanik, um Pixelblöcke von Bildern in den semantischen Raum von Texten zu projizieren. In diesem Raum versteht es Konzepte wie Becher und Tische und ihre relative Position in einem zweidimensionalen Bild.

Aber die reale Welt ist nicht zweidimensional. Sie ist kontinuierlich und voller Masse, Reibung, Schwerkraft und geometrischer Kollisionen.

Das VLA versteht physische Aktionen und die Welt relativ schlecht, weil es im Grunde ein "Übersetzer" ist.

Wir können die Zustandsübergangsgleichung der Physik nutzen, um dies zu erklären. Ein vollständiges Weltmodell lernt im Grunde eine bedingte Wahrscheinlichkeitsverteilung. Es kann die nächste Weltzustandsphase vorhersagen, wenn es den aktuellen Zustand (visuelle Beobachtung) und die bevorstehende Aktion des Roboters kennt.

Das VLA hat diese Gleichung nie gelernt. Stattdessen lernt es die funktionale Beziehung zwischen statischen visuellen Beobachtungen und Sprachbefehlen und direkt ausführbaren Aktionen. Es wurde nicht systematisch trainiert, um die Auswirkungen von Aktionen vorherzusagen oder Gegenfaktische Tests durchzuführen. Deshalb bricht seine Leistung zusammen, wenn die Umgebung, das Material oder die Einschränkungen sich ändern.

Das ist wie jemand, der tausende von Geometrieaufgaben auswendig lernt, ohne die geometrischen Prinzipien zu verstehen. Bei bekannten Aufgaben kann er schnell die richtige Lösung geben, aber bei neuen Aufgaben mit kleinen Änderungen ist er ratlos.

Die Generalisierung des VLA ist im Grunde nur eine Interpolation im hochdimensionalen semantischen Raum. Wenn die physische Form außerhalb des Trainingsdatensatzes liegt, funktioniert die Interpolation nicht mehr.

Im Gegensatz dazu können Videogenerierungsmodelle wie Veo3, Sora 2 und das aktuelle Seedance 2 sehr realistische physische Interaktionsszenen generieren. Die Bewegungen von Flüssigkeiten, starren Körpern und flexiblen Materialien sind so flüssig, dass es fast unmöglich ist, sie von der realen Welt zu unterscheiden. Dies zeigt, dass große Videogenerierungsmodelle möglicherweise die grundlegenden Gesetze der realen Welt in Milliarden von Internetvideos implizit komprimiert und internalisiert haben und so ein Weltmodell entwickelt haben.

Auch wenn diese Modelle so leistungsfähig sind, wurden sie bisher hauptsächlich zur Generierung von Simulationsdaten für das VLA genutzt, nicht für die Robotersteuerung.

Tatsächlich war die Idee, Videogenerierungsmodelle zur Robotersteuerung zu nutzen, nicht neu. Vor DreamZero haben die akademische und die Industriewelt mehrere Lösungen vorgeschlagen. Aber alle stießen auf technische und logische Grenzen.

Zum Beispiel der Large Video Planner (LVP). Die Idee ist, aus einem Bild und einem Satz einen Videoplan für die Aufgabe zu generieren und dann die menschlichen Handbewegungen in 3D-Pfade umzuwandeln. Es nutzt die Video-Vorausbildung anstelle der Sprach-Vorausbildung als Grundlage für die Roboterfähigkeiten.

Eine andere Methode ist ähnlich wie NVIDIA's DreamGen. Man generiert zuerst ein Video und leitet dann die Aktionen daraus ab. Dies war eine vielversprechende Lösung. Die Architektur des Grundmodells wird in zwei Teile geteilt: Der obere Teil ist ein Videomodel, das die Zukunft vorhersagt, und der untere Teil ist ein unabhängig trainiertes IDM-Netzwerk, das die Aktionen aus dem vorhergesagten Video ableitet.

Das größte Problem bei diesen beiden Methoden ist die fehlende Übereinstimmung zwischen Aktionen und Videogenerierung. Die Aktionen erfordern eine hohe Genauigkeit, aber die Videogenerierung ist oft unvollkommen. Wenn das generierte Video kleine Pixelartefakte oder physische Illusionen enthält, wird das IDM oder der Punktverfolgungsalgorithmus verwirrt, und die Fehler werden verdoppelt. Wenn die Fingerposition des Roboters im Video um ein Mikrometer abweicht, kann der reale Roboter überhaupt nichts greifen. Die Robustheit ist sehr schlecht.

Die dritte Methode ist die Unified Video-Action (UVA, verbundene Video-Aktionsgenerierung). Dies ist die fortschrittlichste Methode. Sie versucht, Videos und Aktionen im latenten Raum eines Diffusionsmodells zu lernen und berücksichtigt sowohl die Videovorhersage als auch die Aktionsvorhersage. Bei der Inferenz wird die Videogenerierung durch "Decodierungsentkopplung" übersprungen, um die Geschwindigkeit zu gewährleisten. Aber ihre Architektur nutzt die bidirektionale Diffusion (Bidirectional Diffusion). Um die Länge der Sprachbefehle anzupassen, muss die generierte Videosequenz stark komprimiert werden. Dies verzerrt die ursprüngliche Videotemporalität. Wenn die Zeit verzerrt ist, ist es fast unmöglich, die Aktionsbefehle mit den visuellen Bildern übereinzustimmen. Deshalb ist die Generalisierungsfähigkeit dieser Methode natürlich sehr schlecht.

Außerdem haben alle diese Methoden einen gemeinsamen, fatalen Mangel: Sie sind zu langsam. Das Videodiffusionsmodell erfordert mehrere Iterationen zur Entrauschung. Die Generierung von wenigen Sekunden Aktionen kann oft einige zehn Sekunden Rechenzeit in Anspruch nehmen. Wenn ein Roboter fünf Minuten braucht, um eine Schüssel in die Schublade zu legen, würde man schon wahnsinnig werden, wenn man darauf wartet.

Deshalb war vor 2026 fast nur 1X Technologies, das vor kurzem einen Haushaltsroboter vorgestellt hat, eine neue Embodied-Intelligence-Firma, die diese Videovorhersagemethode versucht hat. Sie nutzt riesige Mengen an "Shadow Mode"-Daten, d. h., wenn ein Mensch den Roboter ferngesteuert hat, lässt das Modell im Hintergrund die Vorhersage synchron ausführen. Mit diesen hochwertigen Paardaten trainiert es das empfindliche IDM.

Aber ein vorübergehender Misserfolg bedeutet nicht, dass die Richtung falsch ist.

Bei der Robotertagung letzten Jahres habe ich viele chinesische Embodied-Intelligence-Forscher interviewt. Damals waren Google's Veo 3 und Genie 3 gerade veröffentlicht worden. Die meisten Forscher waren davon beeindruckt und erkannten die Weltverständnisfähigkeit von Videogenerierungsmodellen.

Deshalb sagten sie in den Gesprächen fast einhellig, dass die Generierung möglicherweise der zuverlässigste Weg für die zukünftige Embodied Intelligence sei. Dies ist wahrscheinlicher als die Datenerzeugung in einer Simulationsumgebung (Simulation). Simulationsumgebungen wie Isaac Gym oder MuJoCo sind auf die physikalischen Engines beschränkt, die vom Menschen programmiert wurden. Sie können nie die Komplexität der realen Welt, die Vielfalt von Licht und Schatten und die Nichtlinearität von Kontaktkräften erschöpfen. Ein Generierungsmodell, das alle menschlichen Videodaten absorbiert, ist der echte Super-Simulator, der alle physikalischen Gesetze der Welt enthält.

Damals war dieser Gedanke noch auf der Ebene der "Daten" verankert. Die Idee, dass Videogenerierung das VLA ersetzen könnte, war noch nicht in Erscheinung getreten.

Aber die Forschung von NVIDIA könnte diesen Gedanken möglicherweise zum ersten Mal in einen effektiven, technischen Weg verwandeln.

02 DreamZero, Embodied Intelligence basierend auf einem Weltmodell

Wir haben bereits die drei Hauptprobleme bei der Nutzung von Videogenerierungsmodellen für die Roboteraktionen besprochen.

Das erste Problem ist die fehlende Übereinstimmung bei der Schritt-für-Schritt-Methode. Das zweite Problem ist, dass die einheitliche Methode nicht funktioniert. Das dritte Problem ist die Langsamkeit. NVIDIA hat mit DreamZero eine Lösung vorgeschlagen.

Zunächst nutzt DreamZero die end-to-end-Trainingsmethode, um Videos und Aktionen gleichzeitig vorherzusagen. Dies löst das Problem der fehlenden Übereinstimmung bei der Schritt-für-Schritt-Methode.

Zweitens hat DreamZero die frühe bidirektionale Architektur verworfen und stattdessen einen 14B-Parameter-Autoregressiven Diffusionstransformer (DiT) entwickelt. Dies ist die aktuelle Standardarchitektur für Videogenerierungsmodelle. Es generiert Videos und Aktionen in strenger zeitlicher Reihenfolge, ähnlich wie ein Sprachmodell Texte generiert. Es sagt Videos und Aktionen gleichzeitig in einem einzigen Diffusionsschritt vorher.

Dies bringt zwei Vorteile. Erstens behält es die ursprüngliche Framerate bei, und die Aktionen und Bilder sind auf der Zeitachse absolut übereinstimmend. Zweitens nutzt es die KV-Cache-Technologie (Key-Value-Cache). Das Modell muss nicht jedes Mal von vorne die historischen Bilder berechnen, was die Rechenleistung erheblich spart.

Um das Problem der "Fehlerakkumulation" und der Illusionen bei der autoregressiven Vorhersage zu lösen, hat DreamZero die Einbeziehung echter Beobachtungen eingeführt.

Das Modell sagt die Bilder und Aktionen für die nächsten 1,6 Sekunden voraus, und der Roboter führt sie aus. Sofort nach der Ausführung der Aktionen wird das absolut reale Bild der aktuellen physikalischen Welt von der Kamera aufgenommen, direkt codiert und in den KV-Cache eingefügt, um das vom Modell generierte falsche Bild zu ersetzen.

Dieser Schritt unterbricht sofort die Kausalität der Fehlerakkumulation. Das Modell muss immer auf der Grundlage der absolut realen physikalischen Welt die nächste Aktion planen.

Das wichtigste und letzte Problem ist die langsame Generierung.

Um die für die Roboterkontrolle erforderliche Frequenz zu erreichen, hat DreamZero die DreamZero-Flash-Technologie entwickelt. Diffusionsmodelle sind langsam, weil sie während der Inferenz einen langen Entrauschungsprozess durchlaufen müssen. Wenn man die Anzahl der Schritte zwangsweise reduziert (z. B. auf nur einen Entrauschungsschritt), bricht die Qualität der generierten Aktionen zusammen, weil das Bild noch in einem Zustand voller Rauschen und Unschärfe ist, und das Modell kann keine genauen Aktionen daraus extrahieren.

Die Lösung von DreamZero-Flash ist