Erster geschickter Betrieb auf Basis eines rein menschlichen videovortrainierten VLA: Erfolgreicher Einsatz durch Fine-Tuning mit wenigen Daten

Es wurde auch ein sehr umfangreiches V-L-A-Datensatz für Hände aufgebaut.

Das Erreichen einer menschlichen Fähigkeit zur feinmotorischen Manipulation ist eines der langjährigen Kernherausforderungen im Bereich der Robotik.

Obwohl die mehrfingrigen dexteren Hände im Hinblick auf die Hardware ein ähnliches Potenzial wie die menschlichen Hände haben, sind die vorhandenen visuell-sprachlich-aktionsbasierten (VLA) Modelle in Bezug auf die Datenmenge und -vielfalt weit hinter den großen Sprachmodellen (LLM) und visuell-sprachlichen Modellen (VLM) zurückgeblieben, da die Kosten für die Erfassung hochwertiger Roboterbewegungsdaten sehr hoch sind. Daher ist es schwierig, die Anforderungen an komplexe Aufgaben in der realen Welt zu erfüllen.

Das neueste Forschungsartikel Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos von der Microsoft Research Asia (MSRA) in Zusammenarbeit mit der Tsinghua-Universität schlägt ein innovatives Vortrainingsframework namens VITRA für dieses Schlüsselproblem vor.

Der Kernbeitrag dieser Studie liegt in der Entwicklung einer vollautomatischen Lösung, die es ermöglicht, eine riesige Menge unannotierter echten menschlicher Aktivitätsvideos in Daten umzuwandeln, die vollständig mit dem Format der vorhandenen Roboter-V-L-A-Trainingsdaten übereinstimmen.

Indem die 3D-Handbewegungsbahnen aus den Videos extrahiert, die Aktionen auf atomarer Ebene segmentiert und automatisch Sprachbefehle generiert werden, hat das Forschungsunternehmen einen ultragroßen Hand-V-L-A-Datensatz mit einer Million Segmenten und 26 Millionen Bildern erstellt.

Nach dem Vortraining auf reinen menschlichen Videodaten hat das Modell in einer völlig unbekannten realen Umgebung eine starke Fähigkeit zur Nullschussvorhersage von Handbewegungen gezeigt.

Mit nur einer geringen Menge an echten Roboterdaten für das Feinabstimmen kann auf einem echten Roboter eine hohe Erfolgsrate bei feinmotorischen Manipulationen erreicht werden, und das Modell zeigt eine sehr starke Generalisierungsfähigkeit für neue Objekte und Umgebungen.

Hier sind weitere Details.

Die Umwandlungsstrecke von menschlichen Videos in Roboterdaten schließen

Das Kernproblem des Artikels besteht darin, wie die großen Unterschiede zwischen unstrukturierten menschlichen Videos und strukturierten Roboterdaten überwunden werden können, um hochwertige Aktionslabels und Sprachbefehle für das Vortraining von VLA-Modellen zu extrahieren.

Diese Studie hat ein komplettes System aus drei Kerntechnologien entwickelt, um eine nahtlose Umwandlung von Rohvideos in V-L-A-Daten zu ermöglichen.

△

3D-Bewegungsannotation: Präzise Wiederherstellung der Hand- und Kamerabahnen

Die Wiederherstellung genauer 3D-Handbewegungen aus Videos von einer monokularen, unkalibrierten und möglicherweise beweglichen Kamera ist eine äußerst herausfordernde Aufgabe.

Diese Studie schlägt eine Monokularkamera- und Handhaltungstrackingmethode auf der Grundlage der neuesten 3D-Visionstechnologie vor:

Zunächst wird der Kamerazustand anhand des Hintergrundflusses bestimmt und die Kameraintrinsika geschätzt.

Anschließend wird die Kameraposition mit Hilfe von Deep Vision SLAM und einem Tiefenschätzmodell verfolgt, und ein Handrekonstruktionsmodell wird verwendet, um die 3D-Handhaltung im Kameraraum (einschließlich der 6D-Haltung des Handgelenks und der Gelenkwinkel aller Finger) für jedes Bild zu extrahieren.

Schließlich werden diese Informationen kombiniert, um die 3D-Handbewegungsbahn im Weltraum zu erhalten.

Diese Methode liefert nicht nur hochpräzise Aktionslabels, sondern auch die Grundlage für die nachfolgende Aktionssegmentierung und Befehlsannotation.

Atomare Aktionssegmentierung: Natürliche Aufteilung basierend auf Geschwindigkeitsminima

Die vorhandenen Roboter-V-L-A-Daten bestehen normalerweise aus einfachen, kurzfristigen atomaren Aufgaben. Die genaue Segmentierung dieser atomaren Aktionen aus langen Videos ist eine Herausforderung.

Das Forschungsunternehmen hat von der natürlichen Rhythmik menschlicher Bewegungen inspiriert und einen einfachen und effizienten Segmentierungsalgorithmus entwickelt: Die Aufteilung basiert auf den Geschwindigkeitsminima der Handbewegung im 3D-Raum.

Während der Übergänge zwischen Aktionen ändert sich die Geschwindigkeit der menschlichen Hand normalerweise, und die Geschwindigkeitsminima markieren oft den Wechsel zwischen Aktionen.

Durch die Detektion der Geschwindigkeitsminima der 3D-Handgelenkbahn im Weltraum kann diese Methode lange Videos effizient in kurze Segmente mit einer einzigen atomaren Aktion aufteilen, ohne zusätzliche manuelle Annotationen oder Modellinferenzen.

Befehlsannotation: Präzise Aktionsbeschreibung in Verbindung mit 3D-Bahnen

Um genaue Sprachbefehle für die segmentierten Videosegmente zu generieren, hat das Forschungsunternehmen geschickt ein visuell-sprachliches Modell (VLM) und die 3D-Handbahnen kombiniert.

Für jedes Videosegment werden acht Bilder gleichmäßig ausgewählt, und die 3D-Bahn der Handfläche wird auf die Bilder projiziert und überlagert.

Dann werden diese Bilder mit hervorgehobenen Bahnen an GPT-4 gesendet, um es anzuweisen, die Aktion der angegebenen Hand in Form eines Imperativs zu beschreiben, indem es den Bildinhalt und die Bahninformationen berücksichtigt.

Experimente haben gezeigt, dass die Bereitstellung von atomaren Videosegmenten und die Überlagerung der 3D-Handbahnen die Genauigkeit der von GPT generierten Aktionsbeschreibungen erheblich verbessern kann.

Starke Nullschussvorhersage und Generalisierung in der realen Welt erreichen

Basierend auf dem oben genannten automatisch erstellten ultragroßen menschlichen Hand-V-L-A-Datensatz hat das Forschungsunternehmen ein VLA-Modell entwickelt und trainiert, das speziell für feinmotorische Manipulationen geeignet ist.

△

1. Modellarchitektur, die VLM und Diffusions-Aktions-Experten kombiniert

Dieses VLA-Modell besteht aus einem VLM-Hauptnetzwerk (PaliGemma-2) und einem Diffusions-Aktions-Experten (Diffusion Transformer, DiT).

VLM & empfängt visuelle Beobachtungen, Sprachbefehle und die Kamerasichtfeldwinkel (FoV) und gibt ein "Kognitionseigenschaft" (Cognition Feature) aus.

Der Diffusions-Aktions-Experte empfängt diese Kognitionseigenschaft, den aktuellen Handzustand und ein mit Masken versehenes Rauschaktionsblock und prognostiziert die zukünftige Handbewegungssequenz durch iteratives Entrauschen.

Um schnell bewegende menschliche Handbewegungen zu verarbeiten und sich an kurze Segmentdaten anzupassen, verwendet das Modell einen Kausal-Attention-Mechanismus für die Aktionsentrauschung, um sicherzustellen, dass die Vorhersage jeder Aktionsschritt nur von den vorherigen Aktionen abhängt und die negativen Auswirkungen der Nullauffüllung effektiv vermieden werden.

2. Nullschussvorhersage von Handbewegungen: Erstaunliche Fähigkeiten in unbekannten Umgebungen

In einer völlig unbekannten realen Umgebung hat das vortrainierte Modell eine starke Fähigkeit zur Nullschussvorhersage von Handbewegungen gezeigt.

△

Bei der Bewertung von Greifaufgaben und allgemeinen Aktionsvorhersageaufgaben hat dieses Modell die Modelle, die auf in Laborumgebungen gesammelten Daten (z. B. EgoDex) trainiert wurden, und die Modelle, die auf ursprünglichen manuell annotierten Daten trainiert wurden, deutlich übertroffen.

Dies beweist, dass das Vortraining mit einer riesigen Menge an vielfältigen realen Videodaten die Generalisierungsfähigkeit des Modells für komplexe Umgebungen und unbekannte Objekte erheblich verbessern kann.

3. Feinmotorische Manipulation auf einem echten Roboter: Effiziente Implementierung durch Feinabstimmung mit einer geringen Datenmenge

Um das Modell auf einem echten Roboter zu implementieren, hat das Forschungsunternehmen den Handbewegungsraum des Menschen mit dem Bewegungsraum der dexteren Roboterhand (z. B. der Xingdong XHAND1 am Realman-Roboter) ausgerichtet.

△

Mit nur einer geringen Menge (ca. 1.200 Datensätzen) an echten Roboterfernbedienungsdaten für die Feinabstimmung des vortrainierten Modells können im realen Weltraum verschiedene feinmotorische Manipulationen wie Greifen, Ablegen, Ausgießen und Wischen durchgeführt werden.

Die Experimentergebnisse zeigen, dass im Vergleich zu Modellen, die nicht mit menschlichen VLA-Daten vortrainiert wurden oder auf anderen Datensätzen (z. B. OXE, EgoDex) vortrainiert wurden, diese Methode eine signifikante Verbesserung der Erfolgsrate der Aufgaben erreicht hat, insbesondere bei der Bewältigung unbekannter Objekte und Hintergründe, und eine ausgezeichnete Robustheit gezeigt hat.

Die Hardwareunterstützung für die reale Implementierung von VITRA

Die beeindruckende Generalisierungsfähigkeit des VITRA-Frameworks auf echten Robotern beruht nicht nur auf algorithmischen Innovationen, sondern auch auf der zugrunde liegenden Hardware -

der starken Unterstützung der von Xingdong Jiyuan selbst entwickelten und in China erstmals eingeführten voll direkt angetriebenen fünffingrigen dexteren Hand Xingdong XHAND1.

Dieses Framework bildet eine perfekte "Software-Hardware-Kooperation" mit den Hardwareeigenschaften der Xingdong XHAND1 und zeigt in praktischen Anwendungsfällen unverzichtbare Implementierungsvorteile.

△

Nahtlose Anpassung des hochpräzisen URDF an den menschlichen Handbewegungsraum

Der Kernbruch durch des VITRA-Frameworks liegt in der Ausrichtung des menschlichen Handbewegungsraums mit dem Bewegungsraum der dexteren Roboterhand.

Die Xingdong XHAND1 bietet offiziell ein URDF-Modell mit höchster Präzision, das nicht nur die Bewegungs- und Dynamikparameter genau beschreibt, sondern auch die räumliche Verteilung der menschlichen Handgelenke perfekt abbildet.

Diese "Digitaler Zwilling"-Stufe der Modellunterstützung ermöglicht es VITRA, die menschlichen Gelenkwinkel während der Feinabstimmungsphase genau auf die entsprechenden Gelenke der Xingdong XHAND1 abzubilden, wodurch die Lücke zwischen menschlichen Videos und realer Hardware erheblich verringert wird und die effiziente Implementierung der Vortrainingsstrategie auf realer Hardware gewährleistet wird.

Voll direkt angetriebene Architektur und hohe Frequenzantwort: Perfekte Ausführung komplexer feinmotorischer Manipulationen

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Zum ersten Mal wird ein geschickter Betrieb auf Basis eines rein menschlichen videovortrainierten VLA erreicht, wobei die erfolgreiche Bereitstellung bereits durch das Fine-Tuning mit wenigen Daten möglich ist.