Es ist ein Modell gekommen, das Roboter dazu bringt, in der "Vorstellung" die Welt zu lernen. Gemeinsam produziert von der Forschungsgruppe des Mitgründers von PI und dem Team von Chen Jianyu aus Tsinghua-Universität.
In den letzten beiden Tagen hat Chelsea Finn, Mitbegründerin von Physical Intelligence (PI), auf 𝕏 wiederholt Lob für eine neueste Weltmodellarbeit der Stanford-Forschungsgruppe ausgesprochen.
Es ist einfach, Videos zu generieren, die gut aussehen. Schwierig ist es jedoch, ein universelles Modell zu entwickeln, das wirklich nützlich für Roboter ist – es muss eng an die Bewegungen anknüpfen und gleichzeitig genau genug sein, um häufige Halluzinationen zu vermeiden.
Diese Studie ist das gemeinsame Werk der von ihr geleiteten Forschungsgruppe an der Stanford-Universität und des Teams von Chen Jianyu an der Tsinghua-Universität: das steuerbare generative Weltmodell Ctrl-World.
Es ist ein bahnbrechendes Konzept, das es Robotern ermöglicht, Aufgaben in einem "Vorstellungsweltraum" zu proben, Strategien zu bewerten und sich selbst zu verbessern.
Die Kernzahlen zeigen, dass das Modell ohne reale Roboterdaten die Befolgungsfähigkeit von Strategien bei bestimmten nachgelagerten Aufgaben erheblich verbessert. Der Erfolgsrate steigt von 38,7 % auf 83,4 %, was einer durchschnittlichen Verbesserung von 44,7 % entspricht.
Der dazugehörige Artikel "CTRL-WORLD: A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION" wurde auf der Plattform arXiv veröffentlicht.
Hinweis: Ctrl-World ist speziell für die Trajektorienvorhersage von universellen Robotern in der Strategie-Schleife entwickelt. Es generiert eine kombinierte Mehrfach-Perspektivvorhersage (einschließlich der Handgelenksperspektive), ermöglicht eine feingranulare Bewegungssteuerung durch rahmenweise Bedingungssteuerung und erhält eine kohärente Langzeitdynamik durch die rückrufbare Gedächtnisfunktion basierend auf der Pose. Diese Komponenten ermöglichen: (1) eine präzise Strategiebewertung in der Vorstellung und eine Übereinstimmung mit der realen Trajektorienvorhersage; (2) eine gezielte Strategieverbesserung durch synthetische Trajektorien.
Forschungshintergrund: Die "Realwelt-Dilemma" in der Robotertraining und der Lösungsansatz des Weltmodells
Derzeit zeigen visuelle-Sprache-Bewegungs- (VLA) Modelle zwar herausragende Leistung in verschiedenen Manipulationsaufgaben und Szenarien, aber in offenen Weltszenarien stehen sie immer noch vor zwei Kernproblemen, die auch der Hauptgrund für die Entwicklung von CTRL-WORLD durch das Team sind:
Problem 1: Hohe Kosten für die Strategiebewertung, teuer und ineffizient in der realen Tests.
Um die Leistung von Robotern zu validieren, müssen Strategien in verschiedenen Szenarien und Aufgaben wiederholt getestet werden.
Nehmen wir die Aufgabe "Objekt greifen" als Beispiel. Forscher müssen Gegenstände unterschiedlicher Größe, Material und Form bereitstellen und verschiedene Beleuchtungsbedingungen und Tischtexturen schaffen, damit der Roboter die Aufgabe hunderte oder sogar tausende Male wiederholt.
Darüber hinaus können beim Testen Probleme wie Kollisionen der Roboterarme (Fehlerrate ca. 5 % - 8 %) und Beschädigungen der Gegenstände (Verlustkosten pro Testlauf über tausend Yuan) auftreten. Die Bewertungsperiode für eine einzelne Strategie dauert oft mehrere Tage. Am wichtigsten ist, dass Stichproben-Tests nicht alle potenziellen Szenarien abdecken können, und es ist schwierig, alle Schwächen der Strategie aufzudecken.
Problem 2: Auch die Strategieoptimierung ist schwierig, es gibt immer nicht genug reale Daten.
Selbst das auf der DROID-Datenbank mit 95.000 Trajektorien und 564 Szenarien trainierte Hauptmodell π₀.₅ hat nur eine Erfolgsrate von 38,7 % bei unbekannten Anweisungen wie "Greife das Objekt in der oberen linken Ecke" oder "Falte das gefärbte Handtuch" oder bei unbekannten Gegenständen wie "Handschuhe" und "Klammerhefter".
Die traditionelle Verbesserungsmethode basiert auf der Markierung neuer Daten durch menschliche Experten. Aber die Markierungsgeschwindigkeit hinkt weit hinter der Aktualisierungsgeschwindigkeit der Szenarien hinterher. Es dauert 20 Stunden für einen erfahrenen Ingenieur, um 100 hochwertige Trajektorien für das Falten von Handtüchern zu markieren, was Kosten von über zehntausend Yuan verursacht. Außerdem können nicht alle ungewöhnlichen Gegenstände und Anweisungsvarianten abgedeckt werden.
Während im offenen Raum noch hartnäckige Probleme bestehen, stehen die traditionellen Weltmodelle ebenfalls vor drei Hauptproblemen:
Um die Abhängigkeit von der realen Welt zu überwinden, hat die Wissenschaft versucht, Weltmodelle (d.h. virtuelle Simulatoren) zu verwenden, um Roboter in der Vorstellung zu trainieren.
Aber das Forschungsteam weist im Artikel "CTRL-WORLD: A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION" darauf hin, dass die meisten existierenden Weltmodelle sich auf passive Videovorhersage-Szenarien konzentrieren und nicht in der Lage sind, aktiv mit fortschrittlichen universellen Strategien zu interagieren.
Genauer gesagt, gibt es drei Schlüssellimitierungen, die die Trajektorienvorhersage in der Strategie-Schleife behindern:
- Einzelne Perspektive führt zu Halluzinationen
Die meisten Modelle simulieren nur eine einzelne dritte Personensicht, was zu dem Problem der "teilweisen Beobachtbarkeit" führt. Wenn ein Roboterarm ein Objekt greift, kann das Modell den Kontaktzustand zwischen Handgelenk und Objekt nicht sehen. Es kann zu Halluzinationen wie "Das Objekt teleportiert sich in die Greifzange ohne physischen Kontakt" kommen.
- Ungenauigkeit in der Bewegungssteuerung
Traditionelle Modelle verlassen sich meist auf Texte oder Anfangsbilder als Bedingungen und können keine hochfrequenten, feinen Bewegungssignale verarbeiten. Der Unterschied zwischen einer Bewegung des Roboterarms um 6 cm auf der Z-Achse und einer Bewegung um 4 cm kann nicht genau widergespiegelt werden, was dazu führt, dass die virtuelle Vorhersage von der realen Bewegung abweicht.
- Schlechte Langzeit-Konsistenz
Mit der Verlängerung der Vorhersagezeit akkumulieren sich kleine Fehler ständig, was zu "zeitlichen Drift" führt. Die Experimente im Artikel zeigen, dass nach einer 10-sekündigen Vorhersage die Position der Objekte in traditionellen Modellen von den realen physikalischen Gesetzen abweicht und somit nicht mehr als Referenz herangezogen werden kann.
Deshalb haben die beiden Teams von Chen Jianyu an der Tsinghua-Universität und Chelsea Finn an der Stanford-Universität gemeinsam das CTRL-World vorgeschlagen, um einen virtuellen Trainingsraum für Roboter zu schaffen, der "präzise simuliert, langfristig stabil und mit der Realität übereinstimmt", damit Roboter durch "Vorstellung" trainiert werden können.
Drei innovative Technologien, die CTRL-World über die Grenzen traditioneller Weltmodelle hinausführt
Ctrl-World löst die Probleme traditioneller Weltmodelle durch drei gezielte Entwürfe und ermöglicht eine "hochwertige, steuerbare und langfristig kohärente" virtuelle Vorhersage.
Der Artikel betont, dass diese drei Innovationen gemeinsam das "passive Videogenerierungsmodell" in einen "Simulator, der in einer geschlossenen Schleife mit VLA-Strategien interagieren kann" verwandeln.
Ctrl-World basiert auf einem vortrainierten Videodiffusionsmodell und wird auf folgende Weise zu einem steuerbaren und zeitlich konsistenten Weltmodell angepasst:
Mehrfach-Perspektiven-Eingabe und kombinierte Vorhersage
Steuerung der Bewegung auf Rahmenebene
Rückrufbare Gedächtnisfunktion basierend auf der Pose
Erstens: Kombinierte Mehrfach-Perspektivvorhersage: Lösung des "Sichtfeldblindpunkts", Verringerung der Halluzinationsrate
Im Allgemeinen leiden frühere Modelle aufgrund der Vorhersage aus einer einzigen Perspektive unter Problemen der teilweisen Beobachtbarkeit und Halluzinationen.
Ctrl-World hingegen kombiniert die dritte Personensicht und die Handgelenksperspektive für die Vorhersage und erzeugt zukünftige Trajektorien, die präzise und der Realität entsprechen.
Traditionelle Weltmodelle simulieren nur eine einzelne dritte Personensicht, was im Grunde genommen "unvollständige Informationen" bedeutet.
CTRL-WORLD hingegen erzeugt innovativ eine Kombination aus einer globalen dritten Personensicht und einer ersten Personensicht aus der Handgelenksperspektive:
Die dritte Personensicht liefert globale Informationen über die Umgebung (z.B. die allgemeine Anordnung der Gegenstände auf dem Tisch), während die Handgelenksperspektive Details des Kontakts erfasst (z.B. die Reibung zwischen der Roboterhand und dem Handtuch, die Kollisionsposition mit der Schublade);
Das Modell verbindet die Bilder aus verschiedenen Perspektiven mithilfe eines räumlichen Transformers (ein Einzelbild besteht aus drei 192×320-Bildern, die in 24×40 latente Merkmale kodiert werden), um die räumlichen Beziehungen zwischen den verschiedenen Perspektiven auszurichten.
Die Experimente im Artikel bestätigen den Wert dieses Entwurfs:
Bei feinen Manipulationen, die den Kontakt zwischen Roboterarm und Objekt betreffen (z.B. das Greifen kleiner Gegenstände), kann die Handgelenksperspektive den Kontaktzustand zwischen Greifzange und Objekt präzise erfassen (z.B. die Greifkraft, die Kontaktposition), was die Anzahl der "Halluzinationen, bei denen ein Objekt ohne physischen Kontakt gegriffen wird" erheblich reduziert.
Quantitative Daten zeigen, dass dieser Entwurf die Halluzinationsrate bei der Interaktion mit Objekten verringert. Bei der Bewertung aus mehreren Perspektiven erreicht Ctrl-World einen Peak-Signal-Rausch-Abstand (PSNR) von 23,56, weit höher als die traditionellen Modelle WPE (20,33) und IRASim (21,36). Der strukturelle Ähnlichkeitsindex (SSIM) von 0,828 ist ebenfalls deutlich höher als die Baseline (WPE 0,772, IRASim 0,774), was die hohe Übereinstimmung zwischen virtuellen Bildern und realen Szenarien beweist.
Zweitens: Steuerung der Bewegung auf Rahmenebene: Bindung der kausalen Beziehung zwischen Bewegung und Vision, ermöglicht eine präzise Steuerung im Zentimeterbereich
Um eine "steuerbare" virtuelle Vorhersage zu ermöglichen, muss eine starke kausale Beziehung zwischen "Bewegung" und "Vision" hergestellt werden.
Die Lösung von Ctrl-World ist die "Bindung der Bewegung auf Rahmenebene":
Die vom Roboter ausgegebenen Bewegungssequenzen (z.B. die Gelenkgeschwindigkeit) werden in die Pose-Parameter des Roboterarms im kartesischen Raum umgewandelt;
Durch ein rahmenweises Kreuz-Attentionsmodul wird sichergestellt, dass die visuelle Vorhersage für jedes Einzelbild strikt mit den entsprechenden Pose-Parametern übereinstimmt - ähnlich wie ein Drehbuch für jedes Szenario, um sicherzustellen, dass "Bewegung A unweigerlich zu visuellen Ergebnis B führt".
Hinweis: Das obige Bild zeigt die Steuerbarkeit von Ctrl-World und seine Ablations-Experimente. Verschiedene Bewegungssequenzen können in