Die Robotersensorik hat eine große Verbesserung erfahren. Durch die Integration von geometrischen Priors in die Leichtbauweise steigt die Erfolgsrate um 31%.
Im Bereich des Roboternlernens ist es seit langem eine Herausforderung, dass KI das dreidimensionale Universum wirklich "verstehen" kann.
VLA-Modelle basieren normalerweise auf vortrainierten visuellen Sprachmodellen (VLM) und werden nur auf der Grundlage von 2D-Bild-Text-Daten trainiert. Sie fehlt die Fähigkeit, den 3D-Raum zu verstehen, die für reale Weltoperationen erforderlich ist.
Aktuelle Verbesserungslösungen, die auf expliziten Tiefeneingaben basieren, sind zwar effektiv, aber sie sind von zusätzlichen Sensoren oder Tiefenschätznetzwerken abhängig, was Probleme wie Schwierigkeiten bei der Implementierung und Genauigkeitsrauschen mit sich bringt.
Deshalb haben die Shanghai Jiao Tong Universität und die Universität von Cambridge eine leichte Methode namens Evo-0 vorgeschlagen, um die Fähigkeit des visuellen Sprachaktionsmodells (VLA) zur Raumverständnis zu verbessern. Durch das implizite Einfügen von 3D-Geometrie-Priorwissen wird keine explizite Tiefeneingabe oder zusätzliche Sensoren benötigt.
Diese Methode nutzt das visuelle geometrische Basis-Modell VGGT, um 3D-Strukturinformationen aus mehrperspektivischen RGB-Bildern zu extrahieren und diese in das ursprüngliche visuelle Sprachmodell zu integrieren, um die räumliche Wahrnehmungsfähigkeit erheblich zu verbessern.
In der Simulationsstudie von rlbench hat Evo-0 bei fünf Aufgaben, die feine Manipulationen erfordern, eine durchschnittliche Erfolgsrate von 15 % über der Basislinie pi0 und 31 % über openvla-oft erreicht.
Evo-0: Integration von 2D–3D-Darstellungen
Evo-0 schlägt vor, VGGT als räumlichen Encoder einzusetzen und die t3^D-Tokens einzuführen, die während des VGGT-Trainings für 3D-Strukturtasks extrahiert wurden. Diese Tokens enthalten geometrische Informationen wie Tiefenkontext und räumliche Korrespondenzen zwischen Ansichten.
Das Modell führt ein Cross-Attention-Fusionsmodul ein, das die von ViT extrahierten 2D-visuellen Tokens als Abfragen und die von VGGT ausgegebenen 3D-Tokens als Schlüssel/Werte verwendet, um die Integration von 2D–3D-Darstellungen zu erreichen und somit die Fähigkeit zur Raumstruktur- und Objektlayout-Verständnis zu verbessern.
Die fusionierten Tokens werden zusammen mit Sprachbefehlen in ein gefrorenes VLM-Hauptmodell eingegeben, und die vorhergesagten Aktionen werden durch die Flow-Matching-Strategie generiert. Während des Trainings werden nur das Fusionsmodul, die LoRA-Anpassungsschicht und der Aktionsspezialist feinabgestimmt, um die Rechenkosten zu senken.
Das Forschungsunternehmen hat durch umfassende Experimente bei fünf rlbench-Simulationsaufgaben, fünf realen Weltmanipulationsaufgaben und die Robustheitsbewertung unter fünf verschiedenen Störbedingungen die Wirksamkeit der Rauminformationsintegrationsmethode bewiesen. In allen Einstellungen hat Evo-0 die räumliche Verständnisfähigkeit konsequent verbessert und ist besser als die fortschrittlichsten VLA-Modelle.
Außer den oben gezeigten Effekten haben das Team in den Hyperparameterexperimenten zusätzliche Experimente an fünf RLBench-Aufgaben durchgeführt, um zu analysieren, wie die Hyperparameter die Modellleistung beeinflussen. Sie haben sich auf zwei Aspekte konzentriert: die Trainingsschritte und die Ausführungsschritte, und die Auswirkungen auf die Erfolgsrate der Aufgaben bewertet.
Es ist bemerkenswert, dass Evo-0, das nur mit 15.000 Schritten trainiert wurde, bereits besser als π0 ist, das mit 20.000 Schritten trainiert wurde. Dies zeigt, dass Evo-0 eine höhere TrainingsEffizienz hat.
Bei den echten Roboterexperimenten wurden fünf reale Robotertasks mit hoher räumlicher Wahrnehmungsanforderung entworfen, darunter das zentrierte Platzieren von Zielen, das Einstecken in Steckdosen, das Greifen in dichten Umgebungen, das Platzieren auf Regalen und die Manipulation von transparenten Objekten. Alle Aufgaben haben eine sehr geringe Toleranz für räumliche Genauigkeit.
Evo-0 hat in allen Aufgaben die Basislinie pi0 übertroffen, und die durchschnittliche Erfolgsrate hat um 28,88 % zugenommen. Insbesondere bei den Aufgaben des Einsteckens in Steckdosen und des Greifens von transparenten Objekten hat es die Fähigkeit gezeigt, komplexe räumliche Beziehungen zu verstehen und präzise zu manipulieren.
In den Robustheitsexperimenten wurden fünf Arten von Störbedingungen entworfen: (1) das Einführen eines bisher nicht gesehenen Störobjekts, (2) die Änderung der Hintergrundfarbe, (3) die Verschiebung der Zielposition, (4) die Änderung der Zielhöhe und (5) die Änderung des Kamerawinkels. Evo-0 hat in allen Fällen relativ robuste Ergebnisse gezeigt und ist stärker als die Basislinie pi0.
Zusammenfassend ist der Schlüssel von Evo-0 die Extraktion reichhaltiger räumlicher Semantik durch VGGT, um die Tiefenschätzfehler und die Notwendigkeit von Sensoren zu umgehen. Es verbessert die Fähigkeit des VLA-Modells zur Raummodellierung in Form eines Plugins, ist effizient im Training und flexibel in der Implementierung und bietet einen neuen praktikablen Weg für allgemeine Roboterstrategien.
Link zur Studie: https://arxiv.org/abs/2507.00416
Dieser Artikel stammt aus dem offiziellen WeChat-Account "QbitAI". Autor: Evo-0-Team. Veröffentlicht von 36Kr mit Genehmigung.