Mit 0,9 Milliarden Parametern: 90 % Erfolgsrate bei echten Geräten - Shanghai Jiao Tong Universität füllt Lücke im räumlichen Verständnis für VLA

Das ultimative Gleichgewicht zwischen Leistung, Kosten und Echtzeitfähigkeit

Roboter können sehen, aber nicht unbedingt genau.

Eine Vielzahl von VLA-Modellen basiert immer noch hauptsächlich auf zweidimensionaler Vision. Sobald es um Aufgaben wie präzise Positionierung, genaue Platzierung und Objektverdeckungserkennung geht, die räumliche Wahrnehmung erfordern, sinkt die Erfolgsrate deutlich.

Es gibt zwei Wege, um räumliche Informationen zu ergänzen, beide haben jedoch ihre Kosten.

Expliziter 3D-Ansatz: Dieser setzt auf Tiefensensoren und Punktwolkenrekonstruktion. Der Hardwarepfad ist lang und empfindlich gegenüber Kalibrierungsfehlern. Impliziter 3D-Ansatz: Hier wird die Geometrie aus RGB-Daten gelernt. Dadurch spart man an Hardware, aber viele Lösungen basieren auf relativ großen Basis-Modellen, was die Trainings- und Inferenzkosten erhöht.

Jetzt hat das MINT-Team der Shanghai Jiao Tong University einen Mittelweg vorgeschlagen:

Evo-Depth mit etwa 0,9 Mrd. Parametern. Es erhöht die Hardwarebelastung nicht zusätzlich. Mit einer kompakten impliziten Tiefenkodierung wird das räumliche Verständnis in die VLA-Strategie integriert, wobei sowohl in der Simulation als auch auf realen Geräten Leistung und Effizienz bei der Implementierung berücksichtigt werden.

In der Simulation: Meta-World 84,4%, LIBERO 95,4%; auf realen Geräten liegt die durchschnittliche Erfolgsrate bei etwa 90%. Bei der Implementierung werden etwa 3,2 GB Grafikspeicher benötigt und die Infernzrate beträgt etwa 12,3 Hz.

Code, Gewichte und Trainingsskripte sind vollständig open source.

Leichtgewichtiges, end-to-end trainierbares System

Direkt zum Thema: Der Kerngedanke von Evo-Depth ist:

Es werden kompakte implizite Tiefenrepräsentationen aus mehrperspektivigen RGB-Daten extrahiert, die dann auf leichte Weise in den visuell-sprachlichen Pfad integriert werden. Schließlich werden kontinuierliche Aktionen über einen flow-matching-Aktions-Experten ausgegeben.

Das gesamte System besteht hauptsächlich aus drei Teilen:

1. IDEM: Implicit Depth Encoding Module.

IDEM ist dafür verantwortlich, implizite Tiefenmerkmale aus mehrperspektivigen Bildern zu extrahieren. Es betont die räumliche Anordnung und die relativen geometrischen Beziehungen, anstatt eine aufwändige 3D-Zwischenrepräsentation explizit zu generieren.

In der Publikation hat der IDEM-Hauptteil etwa 0,13 Mrd. Parameter und wird durch mehrperspektiviges Tiefenvor-training initialisiert. Dadurch wird eine tiefeinduzierte Vorbeeinflussung unter leichten Bedingungen eingeführt.

2. SEM: Spatial Enhancement Module.

SEM nutzt die implizite Tiefe als Modulationssignal, um die visuell-sprachliche Repräsentation zu verbessern.

Im Vergleich zur direkten Hinzufügung eines separaten Tiefenbranches ist diese Art der Integration restriktiver:

Das bestehende VLM bleibt für das semantische Verständnis verantwortlich.

Die Tiefenmerkmale sind hauptsächlich für die räumliche Verbesserung zuständig.

Gleichzeitig werden die Latenz und der Grafikspeicherbedarf so gering wie möglich gehalten.

3. Progressive Alignment Training.

Das gemeinsame Training mehrerer Module führt oft zu Problemen bei der Optimierungsstabilität.

Deshalb verwenden die Autoren das Progressive Alignment Training, um die Schritte Tiefe-Repräsentationsausrichtung - multimodale Fusion - Aktionslernen schrittweise durchzuführen.

Der Aktionskopf basiert auf dem in der aktuellen VLA-Community verbreiteten flow-matching-Ansatz.

Bei einer Gesamtparameterzahl von etwa 0,9 Mrd. werden in der Publikation folgende Ergebnisse berichtet.

Simulation: Meta-World 84,4%, VLA-Arena 41,1%, LIBERO 95,4%, LIBERO-Plus 69,6%.

Reales Gerät: Die durchschnittliche Erfolgsrate liegt bei etwa 90%.

Implementierung: Etwa 3,2 GB GPU-Speicher und eine Infernzrate von etwa 12,3 Hz.

Es ist bemerkenswert, dass die Publikation neben den Benchmark-Scores auch die Implementierungskosten und die Echtzeitfähigkeit angibt.

Für VLA-Systeme, die tatsächlich in Robotersteuerungsschleifen eingesetzt werden müssen, sind diese Informationen oft genauso wichtig.

Kompromiss zwischen Leistung, Kosten und Echtzeitfähigkeit

Letztendlich lässt sich das Problem, das Evo-Depth löst, in einem Satz zusammenfassen:

Wie kann man die räumlichen Fähigkeiten von VLA verbessern, ohne die Systembelastung wesentlich zu erhöhen?

Das Ergebnis ist: Im Vergleich zu rein zweidimensionalen VLA-Systemen ergänzt es räumliche Informationen. Im Vergleich zu aufwändigeren 3D-Ansätzen behält es die Implementierungseffizienz so weit wie möglich bei.

Für Teams, die sich mit Robotermanipulation, räumlicher Intelligenz oder VLA-Systemen befassen, wird ein solcher Kompromiss zwischen Leistung, Kosten und Echtzeitfähigkeit möglicherweise immer wichtiger.

Offizielle Repository: https://github.com/MINT-SJTU/Evo-Depth

Modellgewichte: https://huggingface.co/MINT-SJTU/EVO-Depth-LIBERO

Dieser Artikel stammt aus dem WeChat-Account „Liangziwei“. Autor: MINT-Team der Shanghai Jiao Tong University. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Mit 0,9 Milliarden Parametern erreicht es eine Erfolgsrate von 90 % bei echten Geräten. Shanghai Jiao Tong Universität füllt die Lücke im räumlichen Verständnis für VLA.

Leichtgewichtiges, end-to-end trainierbares System

Kompromiss zwischen Leistung, Kosten und Echtzeitfähigkeit