StartseiteArtikel

Der humanoide Roboter hat erstmals die Kluft zwischen visueller Wahrnehmung und Bewegung überbrückt. Der chinesische Doktor aus der Universität von Kalifornien, Berkeley, ließ den Unitree G1 live demonstrieren.

量子位2025-06-25 16:56
Es ist nicht erforderlich, sich im Voraus an die Umgebung anzupassen. Die Null-Sample-Bereitstellung kann realisiert werden.

Es ist nicht erforderlich, die Umgebung im Voraus kennenzulernen. Mit einem Befehl können die Unitree-Roboter auf Stühlen, Tischen und Kisten Platz nehmen!

Sie können auch direkt Aufgaben wie „über die Kiste hinweggehen“ und „an die Tür klopfen“ freischalten!

Dies ist das neueste Forschungsergebnis des Teams aus der Universität von Kalifornien, Berkeley (UC Berkeley), der Carnegie Mellon University (CMU) und anderen Institutionen – das LeVERB-Framework.

Basierend auf Simulationsdaten-Training wird Null-Shot-Bereitstellung erreicht, sodass der Humanoidroboter durch die Wahrnehmung einer neuen Umgebung und das Verständnis von Sprachbefehlen direkt Ganzkörperbewegungen ausführen kann.

Herkömmliche Humanoidroboter können entweder „die Befehle verstehen, aber sich nicht bewegen“ (mangelnde Ganzkörperkontrollfähigkeit) oder „nur mechanisch Bewegungen ausführen, aber die Umgebung nicht verstehen“ (abhängig von einer künstlich voreingestellten Bewegungsbibliothek).

LeVERB schlägt erstmals die Lücke zwischen visueller Semantikverstehen und physikalischer Bewegung und ermöglicht es dem Roboter, wie ein Mensch von „Denken“ zu „Tun“ zu gelangen, die Umgebung automatisch wahrzunehmen und direkt den Befehlen entsprechend Bewegungen auszuführen.

Die oben gezeigte „Sitzen“-Bewegung wurde durch „Kamera-Wahrnehmung der Umgebung + Befehl 'Auf [Stuhl/Kiste/Tisch] setzen'“ ausgeführt:

Das Team hat auch einen passenden Benchmark vorgestellt: LeVERB-Bench.

Dies ist der erste „Simulation-zu-Realtät“-visuell-sprachliche geschlossene Schleife Benchmark für die Ganzkörperkontrolle (WBC) von Humanoidrobotern, der über 150 Aufgaben in 10 Kategorien umfasst.

Das Team hat das Framework auf dem Unitree G1-Roboter für Benchmarktests eingesetzt. Die Ergebnisse zeigen:

Bei einfachen visuellen Navigationsaufgaben beträgt die Null-Shot-Erfolgsrate 80%, die Gesamterfolgsrate der Aufgaben liegt bei 58,5%, was 7,8-mal besser als die Leistung des naiven hierarchischen VLA (Visuell-Sprache-Bewegung)-Ansatzes ist.

Derzeit ist der LeVERB-Bench-Datensatz im LeRobot-Format open source verfügbar, und der vollständige Code des Projekts wird bald veröffentlicht.

Doppelschichtsystem ermöglicht Ganzkörperbewegungen von „Denken“ zu „Tun“

Die meisten Visuell-Sprache-Bewegung (VLA)-Modelle sind bei der Kontrolle von Robotern auf handwerklich entworfene untere Bewegungselemente („Lexik“ wie Endeffektor-Positionen, Basisgeschwindigkeiten usw.) angewiesen.

Das ermöglicht es ihnen nur, quasi-statische Aufgaben zu bewältigen und nicht die flexiblen Ganzkörperbewegungen, die für die Ganzkörperkontrolle (WBC) von Humanoidrobotern erforderlich sind.

Einfach ausgedrückt: Frühere Roboter haben entweder die Details direkt auf hoher Ebene kontrolliert (wie wenn das Gehirn gleichzeitig Gehen und Denken regelt, was unwirtschaftlich ist) oder die untere Ebene hat die Semantik nicht verstanden (wie wenn die Gliedmaßen nur einfache Befehle befolgen und komplexe Aufgaben nicht bewältigen können).

Humanoidroboter sind hochdimensionale nichtlineare dynamische Systeme, die eine Kombination aus Hochfrequenzkontrolle und Tiefpassplanung erfordern. Herkömmliche Methoden integrieren visuelle und sprachliche Semantik nicht effektiv.

Deshalb schlägt das Team vor, die visuell-sprachlichen Befehle auf hoher Ebene in einen Bewegungsvektor, einen abstrakten Befehl, zu komprimieren und abzubilden. Dieser Befehl kann von der unteren Bewegungseinheit erkannt und ausgeführt werden.

Im LeVERB-Framework wird dieser abstrakte Befehl „latente Bewegungselemente“ genannt.

Das LeVERB-Framework besteht aus einem hierarchischen Doppelsystem, das diese beiden Ebenen über die „latenten Bewegungselemente“ verbindet.

Das Ziel dieser Methode ist es, die „latenten Bewegungselemente“ der beiden Ebenen übereinzustimmen, sodass die obere Ebene sich auf das „Verständnis der Aufgabe“ und die untere Ebene auf das „Ausführen der Bewegung“ konzentrieren kann.

LeVERB-Framework

Obere Ebene LeVERB-VL (Denken): Ein 102,6M Transformer-basiertes visuell-sprachliches Kernmodul, das sprachliche Befehle und visuelle Kontexte in latente Verben umwandelt und mit einer Frequenz von 10 Hz arbeitet.

LeVERB-VL ist für das Verständnis von „dem Gesehenen“ und „dem Gehörten“ zuständig. Wenn es beispielsweise „Gehe hin und setze dich auf den blauen Stuhl“ hört, analysiert es zunächst, „Wo ist der blaue Stuhl“ und „Wie komme ich dorthin“. Es kontrolliert jedoch nicht direkt die Bewegungseinzelheiten, sondern wandelt die Idee in einen „abstrakten Befehl“ um.

Es bildet visuelle und sprachliche Eingaben über Komponenten wie das VLA-Vorwissen-Modul, den Kinematik-Encoder, den Residual-Latentraum, den Kinematik-Decoder und den Diskriminator in einen glatten und regulären latenten Raum ab und erzeugt so einen latenten Bewegungsplan für die Bewegungskontrolle.

Beim Training wird das Modell durch Trajektorienrekonstruktion, Verteilungsausrichtung und adversarische Klassifikation optimiert. Gleichzeitig wird eine Datenmischstrategie eingesetzt, um die Datenvielfalt zu erhöhen, und die Hyperparameter werden feinjustiert, um eine effiziente Verarbeitung von visuell-sprachlichen Informationen und genaue Entscheidungen zu ermöglichen.

Untere Ebene LeVERB-A (Tun): Ein 1,1M Transformer-basierter Ganzkörperbewegungsexperte, der eine durch Reinforcement Learning trainierte WBC-Strategie nutzt, nimmt die latenten Bewegungsbefehle von der oberen Ebene entgegen und dekodiert die latenten Verben in dynamische Ganzkörperbewegungen. Es arbeitet mit einer Frequenz von 50 Hz.

Dieser Teil ist dafür zuständig, die von LeVERB-VL erzeugten latenten Befehle in dynamische Bewegungen umzuwandeln, die der Roboter ausführen kann.

Beim Training wird zunächst eine vom Visuell-Sprache unabhängige Lehrer-Strategie mit dem Proximal Policy Optimization (PPO)-Algorithmus trainiert. Anschließend wird die Bewegung der Lehrer-Strategie mit dem DAgger-Algorithmus und der Huber-Verlustfunktion in eine auf latenten Befehlen basierende Schüler-Strategie (LeVERB-A) übertragen.

Während des Betriebs nimmt LeVERB-A propriozeptive Informationen und latente Vektoren entgegen, nutzt die Transformer-Architektur, um neu parametrisierte Drehmoment-Knotenpositionen auszugeben und führt die Echtzeit-Inferenz auf der On-Board-CPU des Roboters in C++ durch, um die Ganzkörperkontrolle des Humanoidroboters zu erreichen.

LeVERB-Bench

Ohne Messung kann keine weitere Arbeit aufgenommen werden. Das Team hat deshalb einen speziellen Benchmark für visuelle-sprachliche Ganzkörperkontrolle (WBC) von Humanoidrobotern, LeVERB-Bench, entwickelt.

Im Bereich der WBC von Humanoidrobotern fehlen die Demonstrationsdaten für das Training von VLA-Modellen. Bestehende Benchmarks haben viele Probleme, wie z. B. die alleinige Fokussierung auf Fortbewegung, die fehlende visuelle Information im Zustandsraum, die unauthentische Rendering, die zu großen Unterschieden zwischen Simulation und Realität führt und die Anforderungen der Forschung nicht erfüllt.

LeVERB-Bench wiederholt und richtet in der Simulation Motion Capture (MoCap)-Bewegungen neu aus und sammelt so realistische Trajektoriendaten. Diese Methode erfordert keine zuverlässige dynamische Kontrolle bei der Datensammlung. Die kinematischen Positionen bieten aufgabenbezogene Semantik und unterstützen die Verwendung von umgerichteten Humanoiddaten aus Internetvideos und anderen Quellen.

Die Verwendung der Ray-Tracing-Rendering-Technologie in IsaacSim ermöglicht eine genauere Simulation von Szenebeleuchtung und Schatten und verringert die Probleme der Unterschiede zwischen Simulation und Realität, die durch unauthentische Beleuchtung in früheren synthetischen Daten verursacht wurden.

Durch eine programmgesteuerte Generierungsleitung werden die Trajektorien skaliert und randomisiert, die Szenehintergründe, Objekteigenschaften, Aufgabenstellungen und Kamerasichten werden randomisiert und einige Demonstrationen werden gespiegelt, um die Vielfalt und semantische Reichhaltigkeit der Daten sicherzustellen.

Die Daten werden manuell oder mit einem VLM mit egozentrischen Textbefehlen annotiert. Gleichzeitig werden mit einem VLM auch nur Bewegungen enthaltende Daten mit Textbefehlen annotiert, um die Datenmenge nur mit Sprache zu erhöhen und die Datenabdeckung zu erweitern.

LeVERB-Bench umfasst verschiedene Aufgabentypen wie Navigation, Bewegung zum Ziel, Bewegung um Objekte herum, Fortbewegung, Sitzen, Greifen usw.

Es wird in zwei Dimensionen klassifiziert: visuelle-sprachliche Aufgaben und nur sprachliche Aufgaben. Insgesamt umfasst es 154 visuelle-sprachliche Aufgaben-Trajektorien und 460 nur sprachliche Aufgaben-Trajektorien. Jede Trajektorie wird mehrmals randomisiert, um eine große Menge an Demonstrationsdaten zu generieren.

Durch 154 Trajektorien, die jeweils 100-mal randomisiert wurden, wurden 17,1 Stunden an realistischen Bewegungstrajektoriendaten generiert. Darüber hinaus wurden 2,7 Stunden an nur sprachlichen Daten hinzugefügt, die 500 verschiedene Trajektorien abdecken und so den Datensatz weiter bereichern.

Bei der Bewertung wird in 20 zufälligen Umgebungen getestet. Die Szene-Texturen und Objekteigenschaften jeder Aufgabekategorie werden vollständig randomisiert und sind nicht in den Trainingsdaten enthalten. Gleichzeitig wird die Kameraperspektive der dritten Person lokal randomisiert, um sicherzustellen, dass die Bewertungsaufgaben visuell nicht in den Trainingsdaten enthalten sind, um die Generalisierungsfähigkeit des Modells zu testen.

Experimentelle Ergebnisse

Das Team hat das LeVERB-Framework auf dem Unitree G1-Roboter eingesetzt, um seine Null-Shot-Geschlossen-Schleifen-Kontrollfähigkeit in realen Szen