200.000 4D-Interaktionsdaten + kinematische Verankerung ermöglichen es der Nanyang Technological University, die generative Simulation nicht länger auf die "Phantasie" von Roboterbewegungen zu verlassen.
Um Roboter kostengünstig zu trainieren, verlassen sich Forscher oft auf Simulatoren, um ihre Interaktion mit der Umwelt zu simulieren.
Aber die Effektivität traditioneller Simulatoren ist durch starre physikalische Regeln eingeschränkt, und diejenigen, die auf neuartigen Videogenerierungsmodellen basieren, "erfinden" die Interaktion oft im 2D-Raum...
Um dieses Problem zu lösen, hat das MMLab der Nanyang Technological University einen hochpräzisen 4D-Raum-Zeit-Trainingsbereich für Embodied Intelligence geschaffen.
Die Simulation der Interaktion zwischen Roboter und Umwelt ist der Kern der Embodied Intelligence. In letzter Zeit haben einige Studien das Potenzial gezeigt, die "starren" visuellen und physikalischen Beschränkungen traditioneller Simulatoren mithilfe von Videogenerierungstechniken zu überwinden. Diese Arbeiten laufen jedoch hauptsächlich im 2D-Raum oder sind auf die einseitige Führung in statischen Umgebungen beschränkt und ignorieren eine grundlegende Tatsache: Die Interaktion zwischen Roboter und Welt ist im Wesentlichen ein 4D-Raum-Zeit-Ereignis, das eine präzise Interaktionsmodellierung erfordert.
Um diese Essenz wiederherzustellen und eine präzise Roboterkontrolle sicherzustellen, hat das MMLab der Nanyang Technological University einen brandneuen 4D-generativen Embodied Simulator namens Kinema4D vorgeschlagen. Er definiert die generative Simulation neu, indem er die Idee der "Trennung von Steuerung und Umwelt" verfolgt, sodass das Modell die genauen 4D-Betriebsspuren des Roboters "erkennt" und die Reaktion der Umwelt ableitet. Damit zeigt er erstmals das Null-Shot-Generalierungspotenzial eines generativen Simulators und ebnet einen neuen 4D-Hochpräzisionsweg für das skalierbare Training der nächsten Generation von Embodied Intelligence.
Hintergrund und Herausforderungen
△
Im Bereich der Embodied Intelligence ist die Simulation von Roboterbahnen für die Erhöhung von Massendaten, die Strategieevaluierung und das Reinforcement Learning von entscheidender Bedeutung. Die Realisierung auf echter Hardware ist jedoch kostspielig und birgt Sicherheitsrisiken, sodass die Simulation in virtuellen Umgebungen eine unverzichtbare Alternative wird. Obwohl traditionelle physikalische Simulatoren große Fortschritte gemacht haben, sind sie durch mangelnde visuelle Realität und die Abhängigkeit von vordefinierten physikalischen Regeln eingeschränkt und schwer auf komplexe neue Szenarien zu erweitern.
In letzter Zeit haben Forscher begonnen, Videogenerierungsmodelle zu nutzen, um die Interaktion zwischen Roboter und Umwelt zu synthetisieren und die mühsame physikalische Modellierung zu umgehen, indem sie Aktionen als bedingte Hinweise verwenden.
Dennoch gibt es bei den bestehenden generativen Simulationsmethoden noch entscheidende Mängel:
1. Fehlende Dimensionen: Die meisten Modelle sind auf den 2D-Pixelraum beschränkt und fehlen die 4D-Raum-Zeit-Beschränkungen, die für die Roboterinteraktion erforderlich sind.
2. Mangelnde Präzision: Die meisten Studien verlassen sich auf hochwertige Sprachbefehle, implizites Aktionenverständnis oder statische Umweltvorwissen, sodass die Generierungsmodelle die potenziellen Roboteraktionen "erraten" müssen. Dies macht es schwierig, die präzise Steuerung und dynamische Führung bereitzustellen, die für eine hochpräzise Modellierung erforderlich sind, und führt zu schlechten Ergebnissen bei der Verarbeitung komplexer Situationen wie Verformungen oder Verdeckungen.
3. Zusammenfassung: Wie in Abbildung 1 gezeigt, ist es den bestehenden Methoden schwierig, die drei Herausforderungen dynamische Führung, Betriebspräzision und Raum-Zeit-Wahrnehmung gleichzeitig zu bewältigen. Daher wird in dieser Arbeit Kinema4D vorgeschlagen, das abstrakte Aktionen mithilfe der Kinematik im 4D-Raum verankert, um das Generierungsmodell zu führen und die zuverlässige Generierung komplexer dynamischer Interaktionen sicherzustellen, während die Präzision und die Raum-Zeit-Wahrnehmung gewährleistet sind.
Kernmethode
△
Wie in Abbildung 2 gezeigt, ist das Kernziel von Kinema4D, die präzise Roboterkontrolle sicherzustellen und die 4D-Raum-Zeit-Essenz des Interaktionsprozesses wiederherzustellen. Basierend auf der Designphilosophie der "Simulationsentkopplung" wird der Interaktionsprozess in die Roboterkontrolle und die daraus resultierenden Umweltveränderungen aufgeteilt und von den folgenden zwei kooperativen Erkenntnissen gestützt:
i) Präzise 4D-Aktionsrepräsentation durch Kinematikantrieb: Die Roboteraktionen haben in 4D-Raum physikalische Bestimmtheit und sollten nicht vom Generierungsmodell "vorhergesagt" oder "erraten" werden. Abstrakte Gelenkwinkel- oder Pose-Sequenzen haben nur dann Bedeutung, wenn sie auf die physikalische Struktur abgebildet werden. Daher erzeugt Kinema4D mithilfe des 3D- rekonstruierten URDF-Modells kontinuierliche und physikalisch genaue 4D-Bahnen durch explizite Kinematik, um eine hochauflösende raumzeitliche kausale Steuerung für die Interaktion bereitzustellen.
ii) 4D-Modellierung der Umweltreaktion unter kontrollierter Generierung: Im Gegensatz zur bestimmten Roboterkontrolle erfordert die komplexe Umweltkinematik eine hochflexible Generierungsmodellierung. Kinema4D projiziert die abgeleiteten 4D-Roboterbahnen in ein Raum-Zeit-Punktbild (Pointmap)-Signal, um das Generierungsmodell von der Modellierungsbelastung der eigenen Roboterkinematik zu befreien und es stattdessen darauf zu konzentrieren, die reaktive Dynamik (Reactive Dynamics) der Umwelt zu synthetisieren.
Indem es RGB- und Punktbildsequenzen synchron vorhersagt, verwandelt Kinema4D die Simulation in eine Raum-Zeit-Schlussfolgerungsaufgabe im einheitlichen 4D-Raum, die nicht nur visuelle Realität, sondern auch geometrische Konsistenz gewährleistet.
Datenmenge
△
Eine große Datenmenge ist die Grundlage für das Training von Weltmodellen. Daher wurde, wie in Abbildung 3 gezeigt, in dieser Arbeit Robo4D-200k - die derzeit größte 4D-Roboterinteraktionsdatenmenge - erstellt.
Diese Datenmenge legt eine solide Datenbasis durch die Integration von vielfältigen echten Welt-Demonstrationsdaten wie DROID, Bridge und RT-1. Gleichzeitig werden LIBERO-Simulationsdaten eingeführt, um eine große Anzahl von erfolgreichen und fehlgeschlagenen Fällen zu synthetisieren. Jede Sequenz dokumentiert vollständig einen Interaktionsprozess zwischen Roboter und Welt (z. B. "Greifen und Platzieren") und liefert dem Modell die kontinuierlichen raumzeitlichen Informationen, die für eine solide Schlussfolgerung erforderlich sind. Robo4D-200k enthält 201.426 hochpräzise Interaktionssequenzen und bietet mit ihrer großen Datenmenge und Interaktionsvielfalt die Möglichkeit, ein Embodied-Basismodell mit Raum-Zeit- und physikalischer Wahrnehmungskapazität zu trainieren.
Experimentelle Analyse
Die Arbeit hat die vorgeschlagene Methode in drei Dimensionen - Videogenerierungsqualität, geometrische Qualität und Bewertung von nachgelagerten Strategien - umfassend getestet:
Was die Videogenerierungsqualität betrifft, hat Kinema4D führende Ergebnisse erzielt, wie in Tabelle 1 gezeigt. Die visuellen Ergebnisse sind in Abbildung 2 dargestellt. Im Vergleich zu Ctrl-World [ICLR 2026] kann Kinema4D die Roboteraktionen besser wiederherstellen und erhalten ähnliche Umweltreaktionsergebnisse wie die Ground-Truth (GT).
△
△
Was die geometrische Qualität betrifft, hat Kinema4D im Vergleich zu einem anderen aktuellen 4D-generativen Simulator (TesserAct [ICCV 2025]) ebenfalls bessere Ergebnisse erzielt, wie in Tabelle 2 gezeigt. Die visuellen Ergebnisse sind in Abbildung 3 dargestellt. Kinema4D kann die Ausführungseffekte der echten Bahn (Ground-Truth) präzise wiederherstellen, einschließlich der Fälle, in denen der Roboter die Aufgabe "um ein Haar" verfehlt. Beispielsweise kann Kinema4D im Beispiel in der linken unteren Ecke, auch wenn die RGB-Texturen der Greifzange und der Pflanze im 2D-Blickwinkel überlappen, noch immer den räumlichen Abstand zwischen ihnen genau erkennen und somit das Ergebnis simulieren, dass der Roboterarm die Pflanze nicht greifen kann.
△
△
Die Arbeit hat auch die Nützlichkeit von Kinema4D als hochpräzises Werkzeug bei der Bewertung von Roboterstrategien untersucht - d. h., ob der Simulator die realen Ergebnisse nach der Ausführung einer Strategiebahn (Rollout) genau simulieren kann. Die Bewertung wurde in zwei Szenarien durchgeführt: auf einer standardisierten Simulationsplattform (rauscharmer Umgebung) und in der realen Welt (komplexe physikalische Umgebung).
△
△
Wie in Abbildung 6 und 7 gezeigt, stimmen die Simulationsergebnisse von Kinema4D stark mit der tatsächlichen Ausführung überein und können erfolgreiche Ausführungsbahnen (Rollouts) sowie "um ein Haar" fehlgeschlagene Fälle genau synthetisieren. In den Abbildungen kann unser Modell auch dann, wenn die RGB-Texturen der Greifzange und des Objekts im 2D-Blickwinkel überlappen, den räumlichen Abstand zwischen ihnen genau erkennen.
Es ist erwähnenswert, dass Kinema4D für die Strategieevaluierungsexperimente in der realen Welt nicht auf irgendeinen echten Welt-Daten feinabgestimmt wurde; die physikalische Umgebung, die für die Tests verwendet wurde, war für das Modell vollständig außerhalb der Verteilung (OOD). Dies ist das erste Mal, dass ein Embodied-generatives Weltmodell unter strengen OOD-Bedingungen ein gewisses Generalisierungspotenzial gezeigt hat.