StartseiteArtikel

5 Millionen Mal angesehen. 1X hat das "Weltmodell" tatsächlich auf den Roboter NEO angewendet.

机器之心2026-01-14 10:16
Solange es mich von der Hausarbeit rettet, ist es mein Gott.

Erinnern Sie sich noch an den haushaltsnahen humanoide Roboter NEO, der in einem „Lululemon“-Bodyrock ausrüstet war und sich auf sanfte Begleitung spezialisiert hatte?

Als wir das letzte Mal über ihn sprachen, beschweren sich die Leute noch über die Privatsphäre- und Sicherheitsbedenken bei der „Fernsteuerung“ und scherzten, dass hinter jedem Roboter vielleicht ein „Inderjunge“ stecke.

Gestern hat das Unternehmen 1X mit seinem neuen „Gehirn“ aufgetaucht: 1X World Model. Diesmal scheint NEO bereit zu sein, den „Operator hinter den Kulissen“ zu befreien.

Einfach ausgedrückt, lernt NEO jetzt nicht nur noch Bewegungen auswendig, sondern kann auch wie ein Mensch „phantasieren“. Durch das Anschauen einer riesigen Menge an Netzwerkvideos und Videos von menschlichen Erstpersonenpraktiken versteht es, wie die physische Welt funktioniert: Dinge fallen, wenn sie heruntergehen, und Türen können geöffnet werden.

Sie haben eine Videoerzeugungstechnologie ähnlich wie Sora in NEOs Gehirn eingebaut. Wenn es einen Befehl erhält, erzeugt es zuerst ein Video in seinem Kopf, in dem es den Auftrag erfolgreich abschließt, und leitet dann rückwärts ab, wie sich der Körper bewegen muss, um diese Vorstellung in die Realität umzusetzen.

Allerdings wird in der offiziellen Blogeintragung auch darauf hingewiesen, dass es manchmal vorkommen kann, dass „das Gehirn es gelernt hat, aber die Hände nicht“: Das vorgestellte Video ist perfekt, aber die tatsächlichen Bewegungen können fehlschlagen.

Also, ist dies diesmal die echte Leistung unter dem „Yogakleid“ oder nur die „Montagemagie“ in einer Demo? Egal, ob die Technologie umgesetzt wird oder nicht, die Aufmerksamkeit hat bereits die Skala sprengt. Bis zum Zeitpunkt der Einlieferung des Artikels hat die Anzahl der Ansichten des offiziellen Tweets die 5 Millionen markiert.

Es scheint, dass die Leute es immer noch nicht widerstehen können, zu sehen, ob es diesmal wirklich ein Gehirn bekommen hat, nachdem sie in der AI-Ära von einer Vielzahl von aufregenden Demos bombardiert wurden.

Im Folgenden finden Sie eine tiefe Analyse dieses „neuen Gehirns“ von der 1X-Technologieteam:

Um in die reale Welt zu gelangen, müssen Haushaltsroboter über gewöhnliche Verhaltensfähigkeiten und ein tiefes Verständnis der physischen Welt verfügen.

Viele aktuelle Basisrobotermodelle verwenden das VLA-Paradigma: Auf einem vortrainierten VLM wird ein Ausgabekopf zur Vorhersage von Roboterbewegungen hinzugefügt (z. B. PI0.6, Helix, Groot N1.5). Ein VLM kann aus Internetdaten reichhaltiges Wissen erlernen, aber sein Trainingsziel liegt eher auf der visuellen und semantischen Verständnis als auf der Vorhersage von physikalischen dynamischen Prozessen.

Deshalb braucht das Modell für Aufgaben, die für Menschen sehr einfach sind, oft Tausende von Stunden und teure Roboterdaten, um sie zu lernen. Darüber hinaus müssen Forscher normalerweise zusätzliche Trainingsziele einführen (z. B. MolmoAct, Gemini-Robotics 1.5), um das Verständnis des Modells für räumliche Beziehungen in der physikalischen Interaktion zu verbessern.

In diesem Blogbeitrag stellt 1X das auf Video-Vortraining basierende Weltmodell – 1XWM vor und integriert es in den NEO-Roboter als Steuerstrategie.

Im Gegensatz zu VLA-Modellen, die direkt aus statischen Bild-Sprache-Eingaben Bewegungspfade vorhersagen, leitet die Weltmodell-gesteuerte Strategie die Aktionen des Roboters durch die Videoerzeugung unter Textbedingungen ab. Unterstützt durch die Dynamikgesetze der realen Welt, die in Internetvideos enthalten sind, kann dieses Weltmodell auf neue Objekte, Bewegungsweisen und Aufgabenzenarien verallgemeinern, ohne dass ein massives Roboter-Vortraining erforderlich ist und ohne auf irgendeine Fernsteuerungsdemonstration angewiesen zu sein.

Dies markiert einen Wandel im Paradigma der Roboterschaft: Roboter beginnen direkt von der Skalierung des Video-Vortrainings zu profitieren, und dies ist nur möglich dank eines gesamten Hardware-Systems, das für den Übergang von hochauflösenden menschlichen Körpern zu Roboterkörpern entwickelt wurde.

Von Videoerkenntnissen zum Weltmodell

Heutzutage können fortschrittliche Text-zu-Video-Modelle wie Veo und Sora äußerst realistische Videoinhalte erzeugen. Allerdings sind diese Modelle in Null-Shot-Generierungsszenarien nicht mit der Roboterkörperlichkeit ausgerichtet und weisen daher in mehreren Schlüsseldimensionen, die für Steueraufgaben erforderlich sind, häufig Mängel auf, die sich in folgenden Aspekten zeigen:

Visuell/räumliche Ebene: Stimmt das erzeugte Video mit den Kameraintrinsika und der egozentrischen Perspektive des Roboters überein? Kann es die für die Steueraufgabe erforderlichen Tiefeninformationen und genauen räumlichen Beziehungen genau beibehalten?

Kinemische Ebene: Sind die Bewegungen des Roboters im erzeugten Video in dieser Körperlichkeit realisierbar und halten sie sich an seine strukturellen Eigenschaften, Gelenkgrenzen, Geschwindigkeitsbeschränkungen und Aktuatorfähigkeiten?

Physikalische Ebene: Vermeidet der Erzeugungsprozess physikalisch unmögliche Ergebnisse (z. B. das Teleportieren von Objekten), um sicherzustellen, dass es in der realen Welt erfolgreich umgesetzt werden kann?

Das ursprüngliche Video zeigt, was passieren wird, aber nicht, wie es zu tun ist. Um die Videoerkenntnisse in ein wirklich einsetzbares Weltmodell für die Steuerung umzuwandeln, nutzt 1X sein eigenes Ende-zu-Ende-Systemarchitektur und wendet einen zweistufigen Ausrichtungsvorgang an, der in der gleichen Richtung wie bereits existierende Arbeiten wie DreamGen und UniPi geht:

Weltmodell-Hauptteil: Dies ist ein textbedingtes Diffusionsmodell: Es wird zuerst auf Internetvideos vortrainiert, dann auf Videos von menschlichen Erstpersonen und schließlich auf NEO-spezifischen Sensor-Bewegungs-Logs feinabgestimmt. Dieses Modell kann den zeitlichen Ablauf einer Szene mit hoher Wiedergabegenauigkeit vorhersagen und zeichnet sich durch hervorragende visuelle, räumliche und physikalische Übereinstimmung aus.

Inverses Dynamikmodell (Inverse Dynamics Model, IDM): Durch das Training des IDM wird der Pixelraum mit der Aktuatorsteuerung verbunden, sodass es die genauen Bewegungssequenzen vorhersagen kann, die für den Zustandsübergang zwischen den erzeugten Frames erforderlich sind. Gleichzeitig werden mithilfe der Bewertungsmetriken des IDM und des Ablehnungs-Sampling-Mechanismus kinematische Beschränkungen auf die Erzeugungsergebnisse angewendet, um die Durchführbarkeit der Bewegungen auf der Körperlichkeitsebene sicherzustellen.

In der Inferenzphase erhält das System einen Textbefehl und ein Anfangsbild: Das Weltmodell erzeugt die zukünftige Szeneentwicklung, das inverse Dynamikmodell extrahiert die erforderlichen Bewegungskurven, und schließlich führt der Roboter diese Bewegungssequenz in der realen Welt aus.

Trainings- und Inferenzablauf von 1XWM

Das Hauptmodell von 1XWM basiert auf einem generativen Videomodell mit 14 Milliarden Parametern. Um das Modell an die Körperlichkeit von NEO anzupassen, wendet 1X eine mehrstufige Trainingsstrategie an:

Zwischentraining in erster Person: Es wird mit 900 Stunden an Videos von menschlichen Erstpersonen trainiert, um das Modell an Erstpersonensteueraufgaben auszurichten. In dieser Phase kann das Modell allgemeine Steuerverhaltensmuster lernen, aber es ist immer noch schwierig, Videos von NEO, die bestimmte Aufgaben ausführt, zu erzeugen.

Feinabstimmung der Körperlichkeit: Anschließend wird mit 70 Stunden an Roboterdaten feinabgestimmt, um das Modell weiter an NEOs visuelle Erscheinung und kinematische Eigenschaften anzupassen.

Wie in Arbeiten wie DALL·E 3 gezeigt wurde, kann die Verwendung von detaillierteren visuellen Textbeschriftungen für das Training die Fähigkeit von visuellen Basismodellen, anhand von Hinweisen zu arbeiten, erheblich verbessern. Viele Erstpersonendatensätze enthalten jedoch nur kurze Aufgabenbeschreibungen. Deshalb erzeugt 1X mithilfe eines VLM detailliertere Beschriftungen und verwendet sie für das Training durch die Aufsammlung der Beschriftungen.

Darüber hinaus wird das IDM auf 400 Stunden ungebotenen Roboterdaten trainiert, die sowohl zufällige Explorationsdaten als auch Bewegungskurven enthalten, die nicht mit einer bestimmten Aufgabe verbunden sind. Dadurch kann das Modell die Bewegung von NEO in jedem Zustand genau verfolgen.

In der Testphase erhält das System ein Anfangsbild und einen Textbefehl, der NEO anweist, eine Aktion auszuführen. 1XWM erzeugt die zukünftige Videosequenz, und das IDM extrahiert daraus die entsprechenden Roboterbewegungskurven und sendet sie direkt an den Roboter zur Ausführung. Um die Glattheit der Kurven zu gewährleisten, wird die Ausgabe des IDM in mehreren Anfangsrauschenproben und in der Dimension des gleitenden Fensters zeitlich gemittelt.

Der Nach-Trainingsdatensatz von NEO enthält hauptsächlich hochwertige Greif- und Platzierungsdaten (98,5 %). Diese Daten wurden gefiltert und enthalten nur Szenarien mit Tischoperationen und sichtbaren Händen. Durch die Nutzung des Netzwerk-Vortrainings des Basisvideomodells kann das 1XWM-Modell auf verschiedene bisher unbekannte Objekte, Umgebungen und Aufgaben verallgemeinern.

Was kann 1XWM eigentlich tun?

Das Forschungsteam hat die Fähigkeit von 1XWM zur Aufgabenverallgemeinerung weiter evaluiert, wobei der Schwerpunkt darauf lag, ob es Aufgaben erledigen kann, an denen NEO noch nie teilgenommen hat, und inwieweit die erzeugten Videos mit der tatsächlichen Ausführung des Roboters übereinstimmen.

In Experimenten wurde NEO mit 1XWM eingesetzt, um verschiedene Aufgaben außerhalb seines bisherigen Erfahrungsbereichs auszuführen, darunter:

Greifen von Objekten innerhalb und außerhalb der Verteilung;

Bedienen von Objekten, die bisher noch nie gesehen wurden, aber komplexe Verfügbarkeiten aufweisen;

Ausführen von neuen Aufgaben, die neue Bewegungsmuster erfordern.

Die Experimentergebnisse zeigen, dass die von 1XWM erzeugten Videos im Allgemeinen sehr gut mit dem tatsächlichen Ausführungsprozess in der realen Welt übereinstimmen. Ein Nebeneinander-Vergleich der vom Modell erzeugten Videos mit den Videos, die nach der tatsächlichen Ausführung der Aufgabe durch den Roboter aufgenommen wurden, zeigt, dass sich beide in der visuellen Darstellung sehr ähneln. Dies zeigt, dass 1XWM bereits über starke Fähigkeiten in Bezug auf das Verständnis der räumlichen Struktur, die Modellierung von kinematischen Beschränkungen und die physikalische Übereinstimmung verfügt.

Greifen:

Neue Bewegung: Reinigen

Als nächstes versucht 1X Aufgaben, die Zwei-Hände-Koordination und Mensch-Roboter-Interaktion erfordern. Diese Fähigkeiten sind nicht im Trainingsdatensatz enthalten. Dies zeigt, dass dieses Wissen aus dem Video-Vortraining und dem Training von Mensch-Roboter-Interaktionen in erster Person stammt. Da die Körperstruktur von NEO der menschlichen sehr ähnlich ist, können die Funktionen, die aus menschlichen Videodaten g