Roboter greifen endlich nicht mehr willkürlich: Die Universität Hongkong und Alibaba haben gemeinsam das Open-Source-Modell FineVLA entwickelt – mit einem einzigen Befehl lassen sich festlegen, welche Hand verwendet und an welcher Stelle gegriffen wird.
Roboter Modelle können bereits Aufgaben nach Anweisungen wie „Den Becher in den Korb legen“ ausführen, aber mit welcher Hand?
Von welcher Richtung aus greifen? Am Becherkörper oder am Henkel greifen? – Diese entscheidenden Details, die die Ausführungseffektivität bestimmen, werden in den vorhandenen Roboter-Datensätzen nur selten markiert.
Kürzlich haben Forscher aus dem XLANG Lab der Universität Hongkong und dem Qwen-Team von Alibaba FineVLA vorgeschlagen, ein Open-Source-Framework für kontrollierbare VLA-Strategien.
Dieses Framework ermöglicht es VLA-Modellen nicht nur, Aufgaben auszuführen, sondern auch auf die vom Menschen angegebene Weise Aufgaben auszuführen –
Mit welcher Hand, von welchem Winkel herangekommen wird und an welchem Teil des Objekts berührt wird, kann alle über Sprache kontrolliert werden.
Die beste Mischstrategieeinstellung erreichte in der RoboTwin-Simulation eine Erfolgsrate von 86,8%/82,5% (Steigerung um +15,0/+11,1 im Vergleich zur Basislinie) und auf einem echten Zweiarm-Roboter 62,7/100 (Raw-only war 49,9). Kontrollierbare Faktoren wie Haltung (+23), Farbe (+18) und Annäherungsrichtung (+18) wurden alle verbessert. Der Code, das Modell und die Bewertungsbasis sind alle Open-Source.
Hintergrund: Warum sind VLA-Modelle noch nicht genug „gehorsam“?
VLA (Vision-Language-Action)-Modelle können bereits Aktionen wie Greifen und Ablegen nach natürlicher Sprache ausführen, aber ein langjähriges Problem besteht immer noch: Die Sprachüberwachung hat zu grobe Granularität.
Bei der Bild- und Videogenerierung beeinflussen die Details der Textdeskription direkt die Kontrollierbarkeit des Ergebnisses; Ähnliches gilt auch für das Lernen von Roboterstrategien, nur dass die Sprache hier den echten Handlungsprozess einschränken muss.
Beim Aufheben eines Löffels können verschiedene Bahnen den linken oder rechten Arm verwenden, um Hindernisse herumfahren oder geradlinig bewegen, aber in den Datensätzen wird oft dieselbe zielorientierte Anweisung geteilt.
Dies führt zu Überwachungsambiguitäten: Das Modell kann lernen, dass es „letztendlich erfolgreich sein muss“, aber es ist schwierig, aus der Sprache die Ausführungsbeschränkungen wie die Verwendung der Hand, die Annäherungsrichtung und den Kontaktpunkt des Objekts zu lernen.
Die meisten Roboter-Datensätze fehlen derzeit noch an solchen feingranularen Markierungen.
Das Aufbauen eines kontrollierbaren VLA-Systems stellt drei Kernherausforderungen dar:
- Fehlende Infrastruktur von heterogenen Daten zu feingranularen Markierungen;
- Fehlende Bewertungsbasis für das feingranulare Verständnis von Robotern und skalierbare Kostengünstige Markierer;
- Fehlende systematische Beweise dafür, ob feingranulare Sprache tatsächlich das Strategielernen verbessert. Das FineVLA-Framework löst diese drei Probleme nacheinander.
Technische Lösung
FineVLA baut einen vollständigen geschlossenen Kreis für die Aktion-Anweisung-Ausrichtung auf, der die feingranulare Datenkonstruktion, das Verständnis von Roboter-Videos, die skalierbare Markierung und das Lernen von kontrollierbaren VLA-Strategien verbindet.
Links: FineVLA-Tool vereinheitlicht heterogene Roboterbahnen aus 10 Open-Source-Datensätzen, entfernt überflüssige Demonstrationen durch Cluster-Sampling und markiert repräsentative Bahnen mit Aktion-Ausrichtungsbeschreibungen entlang zehn feingranularen Dimensionen.
Das generierte FineVLA-Data unterstützt RoboFine-Bench (das feingranulares Roboter-Video-Verständnis durch Grounding VQA, ReasoningVQA und Caption-Bewertungen misst) und RoboFine-VLM (einen spezifischen VLM-Markierer für Roboter).
Rechts: FineVLA-Policy verwendet gemischte Daten aus ursprünglichen zielorientierten Anweisungen und feingranularen prozessorientierten Anweisungen, trainiert unter zwei Aktionsdekodierungsarchitekturen und evaluiert in der RoboTwin-Simulation und bei der echten Zweiarm-Bedienung.
Beispiele für kontrollierbare Steuerung zeigen, wie feingranulare Sprache ausführungsempfindliche Faktoren wie Kontaktbereich, Zielobjekt, Ausführungsarm, Bahnrichtung und Fehlersanierung festlegt.
FineVLA besteht aus vier Kernkomponenten und bildet einen vollständigen geschlossenen Kreis von „Daten – Modell – Bewertung – Strategie“.
FineVLA-Tool: 970.000 Bahnen zu feingranularen Daten
FineVLA-Tool wandelt heterogene Roboter-Daten in hochwertige feingranulare Überwachung in vier Phasen um:
- Phase 1, Formatvereinheitlichung: Sammelt 972.247 Bahnen aus 10 Open-Source-Datensätzen wie Bridge V2, BC-Z, RT-1, RoboMIND etc. und konvertiert sie einheitlich in das LeRobot2.1-Format.
- Phase 2, Aktionsnormalisierung: Vereinheitlicht die verschiedenen Zeitreferenzen und kinematischen Darstellungen der verschiedenen Datensätze in absolute Koordinaten + normalisierte Quaternionendrehungen und entfernt beschädigte Bahnen mit zu großen Aktions- und Zustandsunterschieden.
- Phase 3, DTW-Clustering zur Duplikatentfernung: Berechnet die Ähnlichkeit von Aktionsbahnen basierend auf der dynamischen Zeitwarping (DTW) und clustert hierarchisch, um 47.159 repräsentative Stichproben aus 970.000 Bahnen auszuwählen und die Vielfalt der Bedienstrategien beizubehalten.
- Phase 4, Zehn-dimensionale feingranulare Markierung: Markiert entlang 10 Dimensionen wie Aktionssequenz, Ausführungsobjekt (links/rechtser Arm), Zielobjekt, Kontakt- und Annäherungsart, Bahnrichtung, Fehlersanierung etc. Zunächst wird es von Qwen3.5-Plus generiert und dann von Menschen überprüft und verifiziert. Die durchschnittliche Anzahl der Wörter nach der Markierung steigt von 9,3 auf 96,8 (10,4-fach).
RoboFine-VLM: Lassen Sie VLM lernen, zu beschreiben, wie sich der Roboter „bewegt“
Allgemeine VLM-Modelle übersehen oft Ausführungsdetails wie die Unterscheidung von Objektambiguitäten, Kontaktbereiche und Bewegungswege. Die Forscher haben Qwen3.5-VL-397B-A17B weiter mit vollständigen Parametern überwacht und feinjustiert und basierend auf den zuvor von Menschen verifizierten feingranularen Anweisungen RoboFine-VLM erhalten, das schrittweise Aktionsbeschreibungen, die 10 Steuerdimensionen abdecken, ausgeben kann und als skalierbarer Markierer für die zukünftige Datenerweiterung dient.
RoboFine-Bench: Bewertung des feingranularen Aktionsverständnisses
RoboFine-Bench enthält 500 Videosequenzen, 32 Roboterformen und 11.631 atomare Fakten und überlappt streng nicht mit dem Trainingssatz. Es gibt zwei Bahnen:
- VQA-Bahn: Enthält 1.030 Fragen, die entlang der zehn markierten feingranularen Dimensionen verteilt sind und sich zu drei Bewertungsachsen zusammenschließen – Entität und Szenenlokalisierung (Grounding), Aktions- und Bewegungsverständnis (Action), Interaktion und Zustandsinferenz (State). Das Modell erhält Videoframes und alle Fragen, und die Antworten werden durch deterministische Übereinstimmung bewertet.
- Caption-Bahn: Fordert das Modell auf, schrittweise feingranulare Beschreibungen auszurichten, die mit den Aktionen übereinstimmen. Ein LLM beurteilt den Grad der Übereinstimmung zwischen der Modellausgabe und den 11.631 zuvor extrahierten atomaren Fakten und erzeugt die drei Indikatoren Konsistenz (Consistency), Abdeckung (Coverage) und Anti-Halluzination (Anti-Hallucination). Es gibt zwei Modi: Im easy-Modus wird die ursprüngliche Aufgabenanweisung als Hinweis gegeben, während im hard-Modus das Modell nur aus der visuellen Beobachtung den Bedienprozess ableiten muss, ohne jegliche sprachliche Hinweise.
FineVLA-Policy: Validierung der Strategiegewinne durch feingranulare Sprache
Behält die visuelle Beobachtung und die Aktionslabels unverändert und ändert nur die zugehörige Sprache (Raw-only vs FG-only vs Mixed), um die Wirkung der Sprachüberwachung streng zu isolieren.
Um die Wirksamkeit der feingranularen Markierung für das System zu validieren, wurde in den Experimenten drei Strategiekonfigurationen entworfen, um die Auswirkungen von Architektur und Datenmenge zu trennen: RDT-OFT und RDT-GR00T verwenden dieselben vortrainierten Daten, aber unterschiedliche Aktionsdekodierungsarchitekturen (OFT vs GR00T), RDT-OFT und AlohaMix-OFT verwenden dieselbe Architektur, aber unterschiedliche Mengen an vortrainierten Daten (AlohaMix ist etwa 13-mal so viel wie RDT).
Jede Konfiguration wird bei sieben FG:Raw-Anweisungsverhältnissen evaluiert, um sicherzustellen, dass die Schlussfolgerungen nicht von einer bestimmten Architektur oder Datenmenge beeinflusst werden.
Experimentelle Ergebnisse
Modellverständnisfähigkeit
RoboFine-VLM erreichte auf der VQA-Bahn eine Genauigkeit von 68,2%, was den stärksten allgemeinen Baseline GPT-5.4 (60,2%) um 8,0 Prozentpunkte übertrifft;
Im Caption-Hard-Setting wurde 82,2% erreicht, was GPT-5.4 (78,0%) übertrifft. Die automatische Bewertung stimmt stark mit der manuellen Rangfolge überein (Spearman 0,943).
Simulationsexperiment RoboTwin
Die Bewertung von sieben FG:Raw-Verhältnissen auf RoboTwin ergab zwei Schlüsselerkenntnisse:
Erkenntnis 1: FG-only ist in allen Einstellungen besser als Raw-only (Gewinn von +1,4 bis +8,1). Die feingranulare Überwachung beeinträchtigt nicht die Aufgaben-Erfolgsrate.
Erkenntnis 2: Die Erfolgsrate zeigt einen umgekehrt U-förmigen Trend, wobei das Maximum bei FG:Raw = 1:2 bis 1:1 liegt.
Die beste Einstellung erreichte 86,8%/82,5%, was der Basislinie um +15,0/+11,1 übertrifft. Raw sagt dem Modell, „was zu tun ist“, FG sagt dem Modell, „wie es zu tun ist“, und beide ergänzen sich.