Warum ignorieren VLA-Modelle die Sprache? Lösung des Befehlsfolgens-Illusionsproblems & neue Generalisierungsdurchbrüche in außerhalb der Verteilung liegenden Szenarien

Um das Problem der visuellen Shortcuts in VLA zu lösen, verbessert LangForce die Generalisierungsfähigkeit.

【Einleitung】Aktuelle VLA-Modelle verlassen sich oft auf visuelle Hinweise anstatt auf Sprachbefehle, was dazu führt, dass sie in neuen Szenarien nicht gut abschneiden. Die Studie stellt die Methode LangForce vor, die durch die Einführung des Log-Likelihood-Ratio-Verlusts die Abhängigkeit des Modells von der Sprache stärkt, seine Generalisierungsfähigkeit in Umgebungen außerhalb der Trainingsverteilung verbessert und die Kernfunktionen der Sprache beibehält.

Visuelle-Sprache-Aktions- (VLA-) Modelle kombinieren visuelle Verständnis, natürliche Sprachverarbeitung und Aktionsgenerierung, sodass Roboter menschliche Befehle befolgen können. Diese Modelle nutzen vortrainierte visuelle Sprachmodelle (VLM), um zu verstehen, was sie sehen und was sie tun sollen, und wandeln dann dieses Verständnis in physikalische Aktionen um.

Allerdings haben aktuelle VLA-Modelle ein grundlegendes Problem: Sie bilden oft eine „visuelle Abkürzung“, wodurch sie Sprachbefehle ignorieren und sich nur auf visuelle Hinweise verlassen.

Dies geschieht, weil typische Robotertrainingsdatensätze eine vorhersehbare Zuordnung zwischen dem, was der Roboter sieht, und der auszuführenden Aktion herstellen, wodurch Sprachbefehle überflüssig werden. Beispielsweise bedeutet das Sehen eines Schrankes fast immer „Schrank öffnen“, unabhängig von dem tatsächlich gegebenen Befehl.

Mit anderen Worten, für das Training von VLA-Modellen liefert die Sprache oft keine zusätzlichen Informationen.

Aus einer Bayes'schen Perspektive kann eine VLA-Strategie

wie folgt zerlegt werden:

Hierbei

stellt die rein visuelle Priori dar (d. h., welche Aktionen in diesem Szenario möglich sind?), während

die Sprachwahrscheinlichkeit ist (d. h., inwieweit die Aktion a den Befehl

erklärt?). Wenn

verhältnismäßig scharf ist, kann das Modell a nur aus v vorhersagen

, ohne auf a zu achten.

Daher wird der Wahrscheinlichkeitsausdruck

vereinfacht, und die Posteriorstrategie degeneriert zur Priori:

Mit anderen Worten, das Modell ignoriert effektiv die Sprachbefehle und lernt eine „visuelle Abkürzung“, die jedoch versagt, wenn die Aufgabe mehrdeutig ist oder die Umgebung sich ändert.

Link zur Studie: https://arxiv.org/abs/2601.15197

In einer neuesten Studie von Huazhong University of Science and Technology, Harbin Institute of Technology, The Hong Kong University of Science and Technology, Guangzhou und anderen wird zunächst empirische Evidenz geliefert, um die Hypothese zu stützen, dass Standard-VLA-Modelle, die auf zielorientierten Datensätzen trainiert werden, in der Regel rein visuelle Strategien lernen

und keine echten sprachabhängigen Strategien

Konkret haben die Forscher das Qwen3VL - 4B - GR00T - Modell aus starVLA als repräsentatives VLA - Architektur gewählt und drei Vorversuche durchgeführt, um diese „Illusion des Befehlsfolgens“ aufzudecken.

In allen drei Experimenten wurde das Modell nur mit visuellen Beobachtungen v trainiert, während die Sprachbefehle

blockiert wurden.

Experiment 1: Identifizierung der visuellen Abkürzung im Test

Die Forscher haben zunächst ein Standard-VLA-Modell auf den Daten der Humanoid-Robotertischbedienung aus dem PhysicalAI - Robotics - GR00T - X - Embodiment - Sim (Name des HuggingFace - Datensatzes) trainiert und es auf 24 Aufgaben des RoboCasa - Benchmarks evaluiert. Da die Trainings - und Testszenerien sehr ähnlich sind, erreichte das rein visuelle Modell auf allen 24 Aufgaben eine Erfolgsrate von 44,6 %, was der Baseline unter Berücksichtigung der Sprache (47,8 %) sehr nahe kommt.

Dieser geringe Unterschied zeigt, dass das Modell auch ohne Abhängigkeit von Sprachbefehlen erfolgreich sein kann, da die Trainings - und Evaluierungsszenarien sowie die Aufgaben sehr ähnlich sind, sodass das Modell eine annähernd deterministische Zuordnung von visuellen Informationen zu Aktionen lernen kann. Das folgende Bild zeigt ein entsprechendes Beispiel.

Experiment 2: Scheitern in Konfliktsituationen

Um dieses Verhalten weiter zu untersuchen, haben die Forscher ein VLA-Modell auf dem klassischen LIBERO - Benchmark trainiert, der aus vier Teildatensätzen besteht: Spatial, Object, Long und Goal. Das gleiche Modell wurde auf allen vier Trainingsdatensätzen gemeinsam trainiert und auf allen vier Testdatensätzen evaluiert.

Die Ergebnisse zeigen, dass auf drei Teildatensätzen (Spatial: 95,7 %, Object: 92,7 %, Long: 95,3 %) das rein visuelle Modell ähnlich gut abschneidet wie das vollständige VLA - Modell. In diesen Teildatensätzen entspricht jeder visuelle Szenario einer einzigen Aufgabe. Auf dem LIBERO - Goal - Teildatensatz jedoch fällt die Erfolgsrate des rein visuellen Modells auf 12,4 % ab.

Der entscheidende Unterschied besteht darin, dass der LIBERO - Goal - Datensatz selbst widersprüchlich ist: Während des Trainings können die gleichen Objektkonfigurationen mehreren gültigen Aufgaben entsprechen. Beispielsweise kann ein Szenario mit mehreren Schüsseln, einem Herd und einer Schublade der Aufgabe „Schüssel in die Schublade legen“ oder „Schüssel auf den Herd stellen“ entsprechen.

Experiment 3: Katastrophales Scheitern bei der Generalisierung außerhalb der Trainingsverteilung

Schließlich haben die Forscher die Generalisierungsfähigkeit des Modells getestet, indem sie es auf dem hochwertigen BridgeDataV2 - Datensatz (diversifizierte, echte Szenarien) trainiert und auf SimplerEnv (Simulation, außerhalb der Trainingsverteilung) evaluiert haben.

Beim Training auf dem Bridge - Datensatz betrug der Aktionsverlust des rein visuellen Modells 0,13, was dem Verlust des vollständigen sprachabhängigen Modells von 0,08 (wie in Abbildung 2(b) gezeigt) entspricht. Dies zeigt, dass das Modell auch in diversifizierten, realen Szenarien die visuelle Abkürzung erkennen kann (z. B. bestimmte Beleuchtungs - oder Hintergrundmerkmale entsprechen bestimmten Aktionen) und so das Trainingsziel minimieren kann, ohne die Sprachbefehle wirklich zu verstehen.

Allerdings hat diese Abhängigkeit von der visuellen Abkürzung eine katastrophale Auswirkung auf die Generalisierungsfähigkeit.

Bei der Evaluierung auf SimplerEnv, einer Simulation mit visuell sehr unterschiedlichen Umgebungen, erreichte die rein visuelle Basismethode eine Erfolgsrate von nahezu 0 %. Dies bestätigt, dass der niedrige Trainingsverlust bei den Bridge - Aufgaben auf eine Überanpassung an spezifische visuelle Muster in der Domäne zurückzuführen ist und nicht auf das Erlernen von generalisierbaren Handlungskompetenzen.

Wenn diese spezifischen visuellen Hinweise in Umgebungen außerhalb der Trainingsverteilung fehlen, versagt die Strategie vollständig.

Informationskollaps

Die Forscher formalisieren die „visuelle Abkürzung“ als Kollaps der bedingten gegenseitigen Information (Conditional Mutual Information, CMI) zwischen Befehl und Aktion. Idealerweise sollte eine robuste VLA - Strategie eine hohe

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Warum ignorieren VLA-Modelle die Sprache? Lösung der Illusion des Befehlsfolgens, neue Durchbrüche bei der Generalisierung in außerhalb der Verteilung liegenden Szenarien

Experiment 1: Identifizierung der visuellen Abkürzung im Test

Experiment 2: Scheitern in Konfliktsituationen

Experiment 3: Katastrophales Scheitern bei der Generalisierung außerhalb der Trainingsverteilung

Informationskollaps