StartseiteArtikel

Neue Forschung von Alibaba: Vereinigung von VLA und Weltmodellen

量子位2025-10-29 18:29
Drei unabhängige Worttrennungsmodule

Wenn das Sehen AI befähigt, die Welt zu sehen, und die Bewegung AI befähigt, die Welt zu verändern, dann –

WorldVLA lässt AI die Welt verstehen.

Wie der Name schon sagt, ist WorldVLA ein einheitlicher Rahmen, der das Visuelle-Sprache-Bewegungs-Modell (VLA) mit dem Weltmodell integriert. Er wurde gemeinsam von der Alibaba DAMO Academy, dem Hupan Laboratory und der Zhejiang University vorgeschlagen.

Im Rahmen dieses Rahmens

Weltmodell: Es prognostiziert zukünftige Bilder, indem es das Verständnis von Bewegungen und Bildern kombiniert. Das Ziel ist es, die zugrunde liegenden physikalischen Gesetze der Umgebung zu lernen, um die Genauigkeit der Bewegungsgenerierung zu verbessern.

Bewegungsmodell: Es generiert auf der Grundlage von Bildbeobachtungen nachfolgende Bewegungen. Dies hilft nicht nur beim visuellen Verständnis, sondern fördert auch die visuelle Generierungsfähigkeit des Weltmodells.

Die Experimentergebnisse zeigen, dass WorldVLA deutlich besser performt als das unabhängige Bewegungsmodell und das Weltmodell, was die gegenseitige Verstärkungseffekte beider Modelle widerspiegelt.

Im Folgenden betrachten wir es genauer.

Integration von VLA und Weltmodell

Heutzutage entwickeln sich VLA und Weltmodell zwar getrennt, aber die funktionellen Einschränkungen sind der Schlüsselhals für die Weiterentwicklung geworden:

VLA-Modell: Es basiert auf einem vortrainierten multimodalen Large Language Model (MLLM). Obwohl es die Fähigkeit zur Generalisierung über verschiedene Roboteraufgaben verfügt, behandelt es Bewegungen nur als Ausgabe und integriert sie nicht tiefgehend als Eingabe für die Analyse. Es fehlt ein umfassendes Verständnis von Bewegungen.

Weltmodell: Es kann auf der Grundlage der aktuellen Beobachtungen und Bewegungen zukünftige visuelle Zustände prognostizieren und versteht visuelle Informationen und Verhaltensdynamiken. Allerdings kann es keine Bewegungen direkt generieren, was seine Anwendbarkeit in Szenarien mit klaren Bewegungsplänen einschränkt.

Um die obigen Probleme zu lösen, hat das Forschungsunternehmen WorldVLA vorgeschlagen – ein autoregressives Bewegungs-Weltmodell zur einheitlichen Verarbeitung von Bewegungen, Bildverstehen und -generierung.

Das Team hat WorldVLA auf der Grundlage des Chameleon-Modells initialisiert und ihm drei unabhängige Tokenisierer (Tokenizer) für die Codierung von Bildern, Texten und Bewegungen gegeben.

Bild-Tokenisierer: Es verwendet das VQ-GAN-Modell (ein Bildgenerierungsmodell, das Vektorquantisierung und Generative Adversarial Networks kombiniert) und führt eine Perzeptionsverlustoptimierung für bestimmte Bildbereiche (z. B. Gesichter und markante Objekte) ein.

Es ist erwähnenswert, dass der Kompressionsfaktor dieses Tokenisierers 16 beträgt und die Codebuchgröße 8192. Für ein 256×256-Bild werden 256 Token generiert, und für ein 512×512-Bild werden 1024 Token generiert.

Bewegungs-Tokenisierer: Es diskretisiert jede Dimension der kontinuierlichen Roboterbewegungen in 256 Intervalle. Die Intervallbreite wird anhand des Bereichs der Trainingsdaten festgelegt. Eine Bewegung wird durch 7 Token repräsentiert, darunter 3 relative Positionen, 3 relative Winkel und 1 absoluter Greifstatus.

Text-Tokenisierer: Es verwendet einen trainierten BPE-Tokenisierer mit einer Vokabulargröße von 65536, darunter 8192 Bild-Token und 256 Bewegungs-Token.

Alle Texte, Bewegungen und Bilder werden in Token diskretisiert und in autoregressiver Weise trainiert.

Der Standard-Attentionsmechanismus im autoregressiven Modell verwendet normalerweise eine kausale Attentionsmaske (causal attention mask), d. h. das aktuelle Token kann nur die Informationen der vorherigen Token zugreifen und nicht die Informationen der nachfolgenden Token, wie in der Abbildung (a) unten gezeigt.

Allerdings hat diese traditionelle Konfiguration deutliche Mängel bei der Generierung von Bewegungsblöcken (d. h. mehreren aufeinanderfolgenden Bewegungen). Unter der Standard-Attentionsmaske werden die Fehler, die in den frühen Bewegungen auftreten, auf die nachfolgenden Bewegungen übertragen, was zu einer Leistungseinbuße führt.

Um dieses Problem zu lösen, hat das Team eine alternative Attentionsmaske für die Bewegungsgenerierung vorgeschlagen, wie in der Abbildung (b) oben gezeigt. Diese Maske stellt sicher, dass die Generierung der aktuellen Bewegung nur von Text- und visuellen Eingaben abhängt und den Einfluss früherer Bewegungen blockiert.

Diese Gestaltung ermöglicht es dem autoregressiven Rahmen, mehrere Bewegungen parallel zu generieren. Der Weltmodellteil folgt weiterhin der traditionellen kausalen Attentionsmaske, wie in der Abbildung (c) oben gezeigt.

Anschließend hat das Team WorldVLA durch die Integration von Bewegungsmodell-Daten und Weltmodell-Daten gemeinsam trainiert.

Die Einbeziehung von Weltmodell-Daten zur Verbesserung der Bewegungsgenerierungsfähigkeit basiert hauptsächlich auf drei Überlegungen:

1. Verständnis der Umweltphysik: Das Weltmodell kann zukünftige Beobachtungen anhand des aktuellen Zustands und der ausgeführten Bewegungen prognostizieren und dadurch die physikalischen Gesetze der Umgebung lernen. Diese Erkenntnis ist besonders wichtig für Manipulationsaufgaben.

2. Bewegungsbewertung und Risikominimierung: Das Weltmodell kann die potenziellen Ergebnisse von Kandidatenbewegungen simulieren und bewerten, was hilft, Bewegungen zu vermeiden, die zu ungünstigen Zuständen führen könnten.

3. Präzise Bewegungsanalyse: Das Weltmodell muss die Bewegungs-Eingabe präzise interpretieren, was wiederum das Bewegungsmodell bei der Generierung von effektiveren und kontextgerechten Bewegungen unterstützt.

Darüber hinaus kann das Bewegungsmodell die visuelle Verständnisfähigkeit verbessern und dadurch die visuelle Generierung des Weltmodells weiter unterstützen.

Bewegungsmodell und Weltmodell unterstützen sich gegenseitig

Ergebnisse der Benchmark-Tests

Aus der folgenden Tabelle geht hervor, dass das WorldVLA-Modell auch ohne Vortraining eine bessere Leistung als das diskretisierte OpenVLA-Modell zeigt, was die Wirksamkeit seiner Architekturbezeichnung beweist.

Darüber hinaus besteht eine positive Korrelation zwischen der Modellleistung und der Bildauflösung. Genauer gesagt bringt eine Auflösung von 512×512 Pixeln im Vergleich zu 256×256 Pixeln eine deutliche Verbesserung.

Dieser Phänomen ist hauptsächlich auf die Vortrainingsstrategie des Chameleon-Hauptmodells zurückzuführen, dessen Bild-Tokenisierer und Large Language Model-Komponente bei einer Auflösung von 512×512 optimiert wurden.

Zusätzlich bietet eine höhere Auflösung natürlich mehr visuelle Details, was für Roboter-Greifaufgaben mit hoher Präzision besonders wichtig ist.

Weltmodell unterstützt das Bewegungsmodell

Darüber hinaus zeigt die Forschung, dass die Einbeziehung des Weltmodells die Leistung des Bewegungsmodells deutlich verbessern kann.

Die Kernfunktion des Weltmodells besteht darin, auf der Grundlage des aktuellen Zustands und der ausgeführten Bewegungen die Veränderungen der Umweltzustände zu prognostizieren. Dieser Generierungsmechanismus zwingt das Modell, die zugrunde liegenden physikalischen Gesetze des Systems zu lernen, und das Beherrschen dieser Gesetze ist die Schlüsselvoraussetzung für die Durchführung von feinen Manipulationsaufgaben wie Greifen.

Genauer gesagt verleiht das Weltmodell dem System die Fähigkeit zur Vorausschau: Indem es die möglichen Konsequenzen von Kandidatenbewegungen vorhersagt, liefert es Schlüsselinformationen für den Entscheidungsprozess und optimiert somit die Strategie zur Bewegungsauswahl und erhöht die Erfolgsquote der Aufgaben.

Das Vergleichsbeispiel in der folgenden Abbildung zeigt diese Vorteile anschaulich. Das Baseline-Bewegungsmodell bewegt sich direkt zum Zielpunkt, kann aber den Käse oder die Flasche nicht greifen. WorldVLA hingegen versucht kontinuierlich zu greifen, bis es sichergestellt hat, dass die Aufgabe erfolgreich abgeschlossen ist, bevor es sich zum Zielpunkt bewegt.

Bewegungsmodell unterstützt das Weltmodell

In Bezug auf die Generierungsqualität übertrifft WorldVLA deutlich das reine Weltmodell, insbesondere bei der Generierung längerer Videosequenzen.

Darüber hinaus weist das reine Weltmodell in mehreren Szenarien deutliche Mängel auf: Es kann die Schublade nicht öffnen (a), das Geschirr verschwindet, nachdem es den Teller bewegt hat (b), und es kann die Schüssel nicht stabil auf dem Herd platzieren (c). Das Bewegungs-Weltmodell generiert in diesen Szenarien hingegen kohärente und physikalisch sinnvolle nachfolgende Zustände.

Einführung der Kernautoren

Der erste Autor der Studie ist Cen Jun, der im August 2024 als Alibaba Star in die Alibaba DAMO Academy eingestellt wurde. Er hat sein Bachelorstudium an der Zhejiang University abgeschlossen und sein Master- und Doktorat an der Hong Kong University of Science and Technology. Im Jahr 2023 hat er für ein halbes Jahr an der Nanyang Technological University in Singapur studiert. Er hat auch in der Microsoft Research Asia (MSRA), dem Shanghai AI Lab, der Hikvision und dem Alibaba Tongyi Laboratory stagiert.

One More Thing

Chen Long, Leiter der Hochschulforschung und Direktor der Xiaomi Automobile, hat auch öffentliche Ansichten zu VLA und Weltmodell geäußert:

Es ist nicht nötig, zwischen VLA und WM zu wählen. Sie können kombiniert werden, um sich gegenseitig zu fördern.