StartseiteArtikel

Zwei Papers von NVIDIA bringen ein neues Paradigma für Embodied Intelligence nach VLA.

36氪的朋友们2026-02-11 17:13
Wir beginnen, Roboter zu trainieren, zu träumen.

Im Jahr 2025 war das beliebteste Schlagwort im Bereich der Embodied AI (eingebettete Künstliche Intelligenz) VLA (Visual-Language-Action-Modell).

Es ist zur Branchenkonvention geworden, eine Art Standardlösung für grundlegende Modelle der Embodied AI. In den letzten 12 Monaten strömten Kapital und Rechenleistung in diesen Bereich, und fast alle großen Modelleanbieter setzen auf dieses Paradigma.

Aber bald haben die Realitäten der physischen Welt allen Beteiligten kalte Wasser über den Kopf geworfen. Denn das VLA ist bei der Ausführung physischer Bewegungen relativ schwach.

Es versteht äußerst komplexe Textanweisungen. Aber wenn der Roboterarm tatsächlich etwas greifen soll, kann es ihm schwerfallen, die Handgelenkstellung so anzupassen, dass er den Bechergriff umgeht. Ganz zu schweigen von komplexeren Aufgaben wie das Lösen von Schuhlässen, die komplizierte physikalische Verformungen erfordern.

Ein weiteres Problem des VLA ist die Generalisierbarkeit. Das Ziel der Modellaktualisierung war es, nicht für jede spezielle Umgebung programmieren zu müssen, sondern die Generalisierungsfähigkeit großer Modelle auszunutzen. Doch jetzt kann das VLA kaum auf Situationen außerhalb des Trainingsumfangs generalisieren, selbst in ähnlichen Umgebungen funktioniert es nicht.

Die Branche hat die mangelnde Generalisierbarkeit auf unzureichende Daten zurückgeführt. Die großen Anbieter investieren Milliarden in die Datenerfassung, um die Wissenslücken des VLA mit einer großen Anzahl von Simulationsdemonstrationen zu füllen.

Im Frühjahr 2026 veröffentlichte NVIDIA zwei Papers: "DreamZero: World Action Models are Zero-shot Policies" und "DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos". Damit hat es ein neues Paradigma für grundlegende Modelle der Embodied AI geschaffen und die Pattsituation bei der Datensammlung gebrochen.

Zusammen eröffnen diese Arbeiten die Möglichkeit, ein Embodied-Modell zu entwickeln, das direkt aus Videos lernt und Zero-shot (ohne spezifische Trainingsdaten) verschiedene Aufgaben ausführen kann.

01 Was das VLA fehlt, ist kein Datum, sondern ein Weltmodell

Um die Revolutionäre Wirkung von DreamZero und Dream Dojo zu verstehen, müssen wir zunächst die systemischen Mängel des VLA untersuchen.

Das größte Problem des VLA ist der Mangel an einem Weltmodell. Die Architektur des VLA begrenzt seine kognitive Fähigkeit. Genetisch gesehen ist das VLA näher verwandt mit Large Language Models (LLMs) als mit reinen visuellen oder physikalischen Modellen. Es nutzt die Cross-Attention-Mechanik, um Pixelblöcke von Bildern in den semantischen Raum von Texten zu projizieren. In diesem Raum versteht es Konzepte wie Tasse und Tisch und deren relative Positionen in zweidimensionalen Bildern.

Aber die physische Welt ist keine zweidimensionale semantische Scheibe. Sie ist kontinuierlich und voller Masse, Reibung, Schwerkraft und geometrischer Kollisionen.

Das VLA versteht physische Bewegungen und die Welt relativ schwach, weil es im Wesentlichen ein "Übersetzer" ist.

Wir können die Zustandsübergangsgleichung der Physik nutzen, um dies zu erklären. Ein vollständiges Weltmodell lernt im Grunde eine bedingte Wahrscheinlichkeitsverteilung. Es kann vorhersagen, wie sich die Welt im nächsten Moment verändern wird, wenn es den aktuellen Zustand der Welt (visuelle Beobachtung) und die bevorstehende Aktion des Roboters kennt.

Das VLA hat diese Gleichung nie gelernt. Stattdessen lernt es die funktionale Beziehung zwischen statischen visuellen Beobachtungen und Sprachanweisungen und ausführbaren Aktionen. Es wurde jedoch nicht systematisch trainiert, um die Auswirkungen von Aktionen vorherzusagen oder hypothetische Szenarien zu testen. Deshalb bricht seine Leistung drastisch ein, sobald sich die Umgebung, die Materialien oder die Einschränkungen leicht ändern.

Das ist wie jemand, der Tausende von Geometrieaufgaben auswendig lernt, ohne die zugrunde liegenden Prinzipien zu verstehen. Bei bekannten Aufgaben kann er schnell die richtige Lösung geben, aber bei neuen Aufgaben mit leicht veränderten Bedingungen ist er ratlos.

Die Generalisierung des VLA ist im Wesentlichen nur eine Interpolation im hochdimensionalen semantischen Raum. Wenn die physische Form außerhalb des Trainingsdatensatzes liegt, funktioniert die Interpolation nicht mehr.

Im Vergleich dazu erzeugen Video-Generierungsmodelle wie Veo3, Sora 2 und das aktuelle Seedance 2 physische Interaktionsszenen, die fast mit der Realität unverwechselbar sind. Dies deutet darauf hin, dass diese Modelle in der riesigen Menge an Internetvideos möglicherweise implizit die grundlegenden Gesetze der physischen Welt gelernt und in ein Weltmodell integriert haben.

Trotz ihrer Stärke wurden Video-Generierungsmodelle bisher hauptsächlich zur Erzeugung von Simulationsdaten für das VLA verwendet, nicht aber in den Arbeitsablauf von Robotern integriert.

Die Idee, Video-Generierungsmodelle zur Steuerung von Robotern zu nutzen, ist nicht neu. Vor DreamZero haben die Wissenschaftler und die Industrie bereits mehrere Lösungsansätze vorgeschlagen. Aber alle diese Ansätze stießen auf technische und logische Grenzen.

Zum Beispiel das LVP (Large Video Planner). Die Idee ist, aus einem Bild und einer Anweisung ein Video zu generieren, das zeigt, wie die Aufgabe gelöst werden kann. Dann wird die Bewegung der menschlichen Hand im Video in eine 3D-Bahn umgewandelt. Es nutzt die Video-Vorausbildung anstelle der Sprach-Vorausbildung als Grundlage für die Roboterfähigkeiten.

Eine andere Methode ist ähnlich wie DreamGen von NVIDIA. Hier wird zuerst ein Video generiert, und dann werden die Aktionen daraus abgeleitet. Dies war bisher eine vielversprechende Methode. Die Architektur des Grundmodells wird in zwei Teile aufgeteilt: Der obere Teil ist ein Videomodell, das die Zukunft vorhersagt, und der untere Teil ist ein unabhängig trainiertes IDM-Netzwerk, das die Aktionen aus dem vorhergesagten Video ableitet.

Das größte Problem bei diesen beiden zweistufigen Ansätzen ist die fehlende Übereinstimmung zwischen Aktionen und Video-Generierung. Die Aktionen erfordern eine hohe Genauigkeit, aber die Video-Generierung ist oft unvollkommen. Wenn das generierte Video kleine Pixelartefakte oder physikalische Illusionen enthält, geraten sowohl das IDM als auch die Punktverfolgung in Verwirrung, und die Fehler werden vervielfacht. Wenn die Fingerposition des Roboters im Video um ein Mikrometer abweicht, kann der Roboter in der Realität nichts greifen. Die Robustheit ist sehr schlecht.

Die dritte Methode ist die Unified Video-Action (UVA, kombinierte Video-Aktionsgenerierung). Dies ist die fortschrittlichste Methode bisher. Sie versucht, Videos und Aktionen in einem gemeinsamen latenten Raum eines Diffusionsmodells zu lernen, um sowohl die Video-Vorhersage als auch die Aktionsvorhersage zu berücksichtigen. Bei der Inferenz wird die Video-Generierung durch "Decoding Decoupling" übersprungen, um die Geschwindigkeit zu gewährleisten. Aber die Architektur nutzt eine bidirektionale Diffusion. Um die Länge der Sprachanweisungen anzupassen, muss die generierte Videosequenz stark komprimiert werden. Dies verzerrt die ursprüngliche Zeitachse des Videos. Wenn die Zeit verzerrt ist, ist es fast unmöglich, die Aktionsanweisungen mit den visuellen Bildern übereinzustimmen. Deshalb ist die Generalisierbarkeit dieser Methode sehr schlecht.

Außerdem haben alle diese Methoden ein gemeinsames Problem: Sie sind zu langsam. Video-Diffusionsmodelle erfordern mehrere Iterationen zur Entfernung von Rauschen, und die Generierung von wenigen Sekunden an Aktionen kann oft mehrere Zehnsekunden an Rechenzeit in Anspruch nehmen. Wenn ein Roboter fünf Minuten braucht, um eine Schüssel in die Schublade zu legen, wird man schon bald ungeduldig.

Deshalb war bis 2026 fast nur 1X Technologies, das kürzlich einen Haushaltsroboter auf den Markt brachte, an der Video-Vorhersagemethode interessiert. Sie nutzten eine riesige Menge an "Shadow Mode"-Daten, d. h. während einer menschlichen Fernsteuerung ließ man das Modell im Hintergrund die Vorhersage durchführen. Mit diesen hochwertigen Paardaten trainierten sie das empfindliche IDM.

Aber ein temporärer Misserfolg bedeutet nicht, dass die Richtung falsch ist.

Bei der vergangenen Robotertagung habe ich viele nationale Experten für Embodied AI interviewt. Damals waren Google Veo 3 und Genie 3 gerade veröffentlicht worden. Die meisten Experten waren beeindruckt und erkannten die Fähigkeit der Video-Generierungsmodelle, die Welt zu verstehen.

Deshalb meinten sie in den Gesprächen fast einhellig, dass die Generierung möglicherweise der zuverlässigste Weg für die zukünftige Embodied AI ist. Dies ist wahrscheinlicher als die Erzeugung von Daten in einer Simulationsumgebung. Simulationsumgebungen wie Isaac Gym oder MuJoCo sind auf die vom Menschen festgelegten physikalischen Gesetze beschränkt und können nie die Komplexität der realen Welt, die Vielfalt der Lichtverhältnisse und die nichtlinearen Kontaktkräfte abdecken. Ein Generierungsmodell, das alle menschlichen Videos absorbiert, ist der echte Super-Simulator, der alle physikalischen Gesetze enthält.

Damals war diese Idee aber noch auf die Ebene der "Daten" beschränkt. Die Idee, dass Video-Generierung das VLA ersetzen könnte, war noch nicht in den Blick geraten.

Aber die Forschung von NVIDIA könnte diesen Gedanken in eine praktikable Lösung umwandeln.

02 DreamZero: Embodied AI basierend auf einem Weltmodell

Wir haben bereits gesehen, dass es drei Hauptprobleme gibt, wenn man Video-Generierungsmodelle zur Erzeugung von Roboteraktionen nutzt.

Das erste Problem ist die fehlende Übereinstimmung bei der zweistufigen Methode. Das zweite Problem ist die schlechte Leistung der einheitlichen Methode. Das dritte Problem ist die langsame Geschwindigkeit. NVIDIA hat mit DreamZero eine Lösung für diese Probleme gefunden.

Erstens nutzt DreamZero eine end-to-end-Trainingsmethode, bei der Videos und Aktionen gleichzeitig vorhergesagt werden. Dies löst das Problem der fehlenden Übereinstimmung bei den zweistufigen Methoden.

Zweitens weicht DreamZero von der frühen bidirektionalen Architektur ab und nutzt stattdessen einen 14-Milliarden-Parameter-Selbstregressions-Diffusions-Transformer (DiT). Dies ist die aktuelle Standardarchitektur für Video-Generierungsmodelle. Es generiert Videos und Aktionen in der gleichen Weise wie ein Sprachmodell Texte, d. h. es folgt der Zeitreihe von links nach rechts. In einer einzigen Diffusionsiteration werden sowohl das Video als auch die Aktionen vorhergesagt.

Dies hat zwei Vorteile. Erstens bleibt die ursprüngliche Bildrate erhalten, und die Aktionen und die Bilder stimmen in der Zeitachse überein. Zweitens nutzt es die KV Cache-Technologie. Das Modell muss nicht jedes Mal von vorne die historischen Bilder berechnen, was die Rechenleistung spart.

Drittens wird um das Problem der "Fehlerakkumulation" und der Illusionen bei der Selbstregression zu lösen, DreamZero auch reale Beobachtungen eingeführt.

Das Modell prognostiziert die Bilder und Aktionen für die nächsten 1,6 Sekunden, und der Roboter führt diese aus. Sobald die Aktion abgeschlossen ist, wird das aktuelle Bild der physischen Welt von der Kamera aufgenommen, direkt kodiert und in den KV Cache eingefügt, um die vom Modell generierten falschen Bilder zu ersetzen.

Dies unterbricht sofort die Kette der Fehlerakkumulation. Das Modell muss immer auf der Grundlage der realen physischen Welt die nächste Aktion planen.

Schließlich, und am wichtigsten, ist die Lösung des Problems der langsamen Generierung.

Um die erforderliche Frequenz für die Robotersteuerung zu erreichen, hat DreamZero die DreamZero-Flash-Technologie entwickelt. Diffusionsmodelle sind langsam, weil sie während der Inferenz eine lange Kette von Rauschentfernungen durchlaufen müssen. Wenn man die Anzahl der Schritte reduziert (z. B. nur einen Schritt zur Rauschentfernung), sinkt die Qualität der generierten Aktionen drastisch, weil das Bild noch voller