StartseiteArtikel

Basierend auf dem generativen simulierten Weltmodell ist die quelloffene Embodied Intelligence-Toolchain EmbodiChain von Trans-Dimension Intelligence.

时氪分享2026-01-21 17:45
Transdimensional Intelligence Open Source EmbodiChain, Toolchain for Embodied Intelligence

Am 20. Januar 2026 kündigte Transdimensional Intelligence die offizielle Open-Source-Veröffentlichung der EmbodiChain, einer Toolchain für Embodied Intelligence basierend auf einem generativen Simulationsweltmodell, an.

EmbodiChain ist eine Toolchain für Embodied Intelligence basierend auf einem generativen Simulationsweltmodell, die in der Lage ist, VLA-Modelle automatisch zu trainieren und erfolgreich auf echten Geräten bereitzustellen. Sie ist unabhängig von realen Daten und trainiert VLA-Modelle mit 100 % synthetischen Daten. Darüber hinaus kann sie direkt auf echten Robotern eingesetzt werden, um eine Null-Shot-Übertragung zwischen virtueller und realer Welt zu erreichen.

Basierend auf einem end-to-end automatisierten Prozess kombiniert EmbodiChain die generative Szenenkonstruktion und die Exploration von Agentenfähigkeiten, um einen effizienten geschlossenen Kreis von "Simulation - Training - Deployment" zu schaffen. Durch die automatisierte Generierungstechnologie von Aufgaben Szenen und Trainingsdaten kann die Erstellung eines hochwertigen Trainingsablaufs von Monaten auf Tage verkürzt werden. Außerdem wurde ein ganzheitliches Bewertungssystem von der automatischen Szenengenerierung über die Fähigkeitsentdeckung bis zur Validierung auf echten Geräten aufgebaut, das einen vollständigen Open-Source-Benchmark für die Praxistauglichkeit von Embodied-Intelligenzmodellen bietet.

Im Bereich der Large Language Models hat die riesige Menge an Internet-Text-Daten das Entstehen von Intelligenz gefördert. Dieser erfolgreiche Ansatz lässt sich jedoch im Bereich der Robotik schwerlich replizieren. Der Kernkonflikt liegt in der grundlegenden Differenz der Daten: LLM basiert auf der Reinigung von bestehenden Daten, während Embodied Intelligence auf inkrementellen Daten, die den physikalischen Gesetzen entsprechen, angewiesen ist. Die Abhängigkeit von der physikalischen Zeit und die Grenzen der Arbeitskosten beschränken ständig die Skalierbarkeit der Daten.

Das Kerngedanke von EmbodiChain lautet "Generierung statt Datenerfassung". Durch die generative Simulations-Technologie wurde eine ununterbrochene "Onlin-Datenstrom" geschaffen, die das traditionelle und ineffiziente Modell von "Generierung - Speicherung - Abruf" komplett ablöst. Ihr technischer Rahmen besteht aus drei innovativen Modulen:

Weltsimulation: Mit den Modulen Real2Sim und Gen2Sim kann der Simulator auf der Grundlage von wenigen realen Beispielen oder Sprachanweisungen automatisch physikalisch konsistente 3D-Szenen und Aufgabenumgebungen generieren, um die vollständige Automatisierung der Datenproduktion zu erreichen.

Datenvermehrung und Selbstreparatur: Das System randomisiert nicht nur die physikalischen Parameter und erhöht die visuelle Vielfalt, sondern kann auch automatisch Korrekturpfade generieren, wenn ein Roboter eine Aufgabe fehlschlägt, um einen geschlossenen Lernkreis von "Fehler - Lernen" zu bilden und die Robustheit des Modells erheblich zu verbessern.

Privilegierte Informationen: EmbodiChain bietet "Gottessicht" - Informationen (z. B. Objekt-Masken, räumliche Beziehungen), die in der realen Welt unsichtbar sind, und zwingt das Modell, die physikalische Natur anstatt nur die Oberflächenpixel zu verstehen. Dies stimmt gut mit der von Yann LeCun propagierten Weltmodell-Idee überein.

Im Gegensatz zu "Video-generativen Weltmodellen" folgt EmbodiChain einem 3D-interaktiven und physikalisch genauen generativen Simulationsansatz. Durch die Bereitstellung von privilegierten Informationen (genaue Objektmasken, räumliche Beziehungen, Affordance-Labels) zwingt sie das Modell, die Geometrie und die physikalische Natur der Szene zu verstehen, anstatt nur die Oberflächenpixel anzupassen, um sicherzustellen, dass die trainierten Strategien in der realen Welt stabil und zuverlässig sind.

Um die Wirksamkeit der generativen Daten zu validieren, führte Transdimensional Intelligence extreme Tests durch: Das Sim2Real-VLA-Modell wurde nur mit 100 % Simulationsdaten trainiert, wobei alle realen Daten komplett ausgeschlossen wurden. Die Tests zeigten, dass das Modell in der realen Umgebung eine relativ hohe Erfolgsrate bei Operationen aufweist und eine starke Robustheit gegenüber Störungen wie das Wechseln des Tischtuchs oder das Verschieben von Objekten aufweist. Dieses Ergebnis beweist, dass generative Simulationsdaten nicht nur machbar sind, sondern möglicherweise sogar aufgrund der Vermeidung von Overfitting gegenüber traditionellen Methoden überlegen sind.

Im Anschluss wird Transdimensional Intelligence schrittweise die von EmbodiChain automatisch trainierten VLA-Basismodelle und Beispiele für mehrere konkrete Aufgaben veröffentlichen, um der Community eine standardisierte Infrastruktur bereitzustellen.

Die Open-Source-Veröffentlichung von EmbodiChain ist ein wichtiger Schritt von Transdimensional Intelligence, um die gemeinsame Entwicklung der Branche voranzutreiben. Das Ziel ist es, EmbodiChain zum "Wasser, Strom und Gas" im Bereich der Embodied Intelligence zu machen, damit Forscher sich von der körperlichen Arbeit der Datenerfassung und dem Speicherdruck befreien können und die Forschung und Anwendung von Embodied Intelligence beschleunigt umgesetzt werden können.