StartseiteArtikel

Einheitliche VLA-Paradigma: Die Hong Kong University of Science and Technology hat die Lego-ähnliche Architektur StarVLA Open-Source gemacht, und die Reproduktionskosten sind erheblich gesenkt.

新智元2026-04-13 17:41
StarVLA Unified VLA Architecture löst das Problem der Fragmentierung.

  Bericht von New Intelligence Yuan  

Redakteur: LRST 

【Einleitung】Derzeit steckt die VLA (Vision-Language-Action)-Richtung in der Embodied Intelligence in einem typischen „Fragmentierungsmuddel“: Verschiedene Teams verwenden heterogene Aktionsdecodierungsparadigmen, stark gekoppelte Datenpipelines und inkompatible Bewertungsvereinbarungen, was es schwierig macht, Methoden horizontal zu vergleichen und die Reproduktionskosten extrem hoch werden lässt. Das Open-Source-Projekt StarVLA hat sich entschieden, nicht einfach Rechenleistung zu stapeln oder blind auf die Rangliste zu setzen, sondern greift das Problem direkt auf der Ebene der Systemabstraktion an und schlägt eine einheitliche „Lego-artige“ Architektur mit Backbone-Action Head vor.

Obwohl das VLA-Modell zum Hauptparadigma der Embodied General Intelligence geworden ist, steht die akademische Forschung vor drei „Babelturm“-Problemen:

  1. Architekturtrennung: Autoregressive diskrete Tokenisierung, parallele kontinuierliche Regression, Strömungsmatching-Entrauschen, Zwei-Systeme-Inferenz … Verschiedene Aktionsdecodierungsparadigmen verwenden völlig unterschiedliche Codeimplementierungen und Schnittstellenannahmen.
  2. Starke Kopplung der Pipelines: Die meisten bestehenden Open-Source-Frameworks sind „einzelmethodenspezifisch“ konzipiert. Datenvorverarbeitung, Trainingszyklus und Bewertungsvereinbarungen sind tief verknüpft, was dazu führt, dass Module nicht über Projekte hinweg wiederverwendet werden können.
  3. Uneinheitliche Bewertungsstandards: Jede Studie berichtet nur über die Ergebnisse auf disjunkten Benchmark-Untergruppen, und die Vorverarbeitungs- und Inferenzvereinbarungen sind nicht transparent, so dass ein fairer Vergleich fast unmöglich ist.

Diese Fragmentierung verlangsamt die Iterationsgeschwindigkeit der Embodied Foundation Models erheblich.

Die Hong Kong University of Science and Technology hat ein neues Open-Source-Projekt namens StarVLA veröffentlicht. Der Kern der Erkenntnis besteht darin, dass VLM-basiertes und Weltmodell-basiertes Paradigma nicht grundsätzlich gegensätzlich sind, sondern Varianten unterschiedlicher Hilfslernsignale (L_aux) innerhalb eines einheitlichen Strategierahmens.

Basierend auf dieser Erkenntnis hat das Team eine hochmodulare Open-Source-Basis mit einheitlichen Schnittstellen erstellt, die es Forschern ermöglicht, wie beim Bauen mit Lego Backbone-Netze und Aktionsköpfe frei zu kombinieren und den Einfluss einzelner Designvariablen unter vollkommen kontrollierten Bedingungen zu validieren.

Open-Source-Adresse: https://github.com/starVLA/starVLA

Projekt-Homepage: https://starvla.github.io

Link zur Studie: https://arxiv.org/abs/2604.05014

Architekturdecodierung, die „Lego“-Abstraktion mit Policy-Centric-Ansatz

StarVLA führt auf Systemebene eine einheitliche Strategiezentrierte Formel ein, die multimodale Beobachtungen, Sprachbefehle und zukünftige Aktionsblöcke in denselben Rechengraphen abbildet:

Dabei ist

die multimodale historische Beobachtung, ℓ der Sprachbefehl,

der vorhergesagte Aktionsblock,

die optionale Hilfsausgabe (z. B. zukünftige visuelle Frames, räumliche Inferenztexte usw.). Das Trainingsziel wird einheitlich in Folgendes zerlegt:

Direct VLA:

, reine Aktionsüberwachung.

VLM-basiertes VLA: Einführen eines sprachlichen Ausrichtungs-Hilfsziels (z. B. Teilaufgabenplanung, räumliche Grounding).

WM-basiertes VLA: Einführen der Vorhersage zukünftiger Beobachtungen als Hilfsziel oder implizites Priori.

Unter dieser Abstraktion hat StarVLA bidirektionale Modularität erreicht:

Steckbares Backbone: Unterstützt instruktionsfeingestellte VLM wie Qwen3-VL, InternVL sowie Weltmodelle wie Cosmos-Predict2. Mit einer leichten Anpassungsschicht kann es an das einheitliche Repräsentationskontrakt angeschlossen werden.

Steckbarer Action Head: Enthält 4 repräsentative Aktionsdecoder, die die gleichen forward()- und predict_action()-Schnittstellen teilen:

StarVLA-FAST: Autoregressive diskrete Token-Generierung

StarVLA-OFT: Leichtgewichtige MLP-parallele kontinuierliche Regression

StarVLA-π: Zwischenschichtliches Cross-DiT-Strömungsmatching-Entrauschen

StarVLA-GR00T: Zwei-Systeme-Architektur mit System 2 (langsame Inferenz) + System 1 (schnelle Aktion)

Alle Varianten teilen sich dieselbe Daten-Schnittstelle, Trainingszyklus und Bewertungspipeline. Ein Paradigmenwechsel kann einfach durch das Ersetzen des Backbones oder des Action Heads erfolgen. Dies beseitigt die „versteckten Variablenstörungen“ beim Vergleich zwischen Methoden.

Trainingsparadigma, vom Ein-Benchmark-Feintuning zum multimodalen Zusammenwirken

StarVLA abstrahiert die Trainingsstrategie zu einem wiederverwendbaren Konfigurationsobjekt, das von der Architektur entkoppelt ist, und unterstützt drei Kernparadigmen:

1. Überwachtes Feintuning durch Verhaltenskopieren (SFT)

Es wird ein vollständiges verteiltes Trainingsskript (Accelerate + DeepSpeed ZeRO-2) bereitgestellt, das vollständiges Feintuning aller Parameter und das Einfrieren von Teilmodulen unterstützt. Der Optimierer verwendet unabhängige Lernraten für mehrere Parametergruppen, bfloat16-Mischgenauigkeit und eine Kosinus-Abkling-Scheduler, um ein stabiles Training heterogener Komponenten sicherzustellen.

2. Mehrziel-Zusammenwirkungs-Training (Co-Training)

Reines Aktionsfeintuning führt leicht zu einem „katastrophalen Vergessen“ des VLM-Backbones.

StarVLA enthält einen Mechanismus für das Zusammenwirken von zwei Datenströmen: Es werden abwechselnd VLA-Aktionsvorwärts- und VLM-Sprachmodellierungsvorwärtsläufe ausgeführt, und der trainer.loss_scale.vlm wird verwendet, um das Aktionslernen und die Aufrechterhaltung der multimodalen Repräsentation dynamisch auszugleichen. Experimente zeigen, dass das Zusammenwirkenstraining die räumliche Grounding-Fähigkeit deutlich verbessern und auf WidowX und Google Robot eine Erfolgsratezunahme von 4% bis 10% bringen kann.

3. Mischtraining über verschiedene Embodiments (Cross-Embodiment)

Mithilfe des LeRobotMixtureDataLoaders können Benutzer in der YAML-Datei beliebige Kombinationen von Roboterdatensätzen und Samplinggewichte angeben. Das Framework behandelt automatisch die Anpassung des Aktionsraums und die Verfolgung von Embodiment-Labels. Diese Gestaltung macht das „Cross-Embodiment-Pretraining“ von einem benutzerdefinierten Skript zu einer standardisierten Konfiguration.

Bewertung und Deployment, die Server-Client-Architektur verbindet Sim2Real

Um die Kontamination der Modellumgebung durch Benchmark-Abhängigkeiten zu vermeiden, verwendet StarVLA eine leichtgewichtige WebSocket Server-Client-Bewertungsabstraktion:

  • Die Modellseite bietet nur die predict_action()-Schnittstelle an und startet den Strategiedienst nach dem Laden des Checkpoints.
  • Die Bewertungsseite (z. B. die offiziellen Umgebungen von LIBERO, SimplerEnv, RoboTwin 2.0) verpackt die Beobachtungsdictionary über einen unabhängigen Client, kommuniziert mit msgpack und gibt normalisierte Aktionen zurück.
  • Für die Bereitstellung auf einem echten Roboter muss kein Code geändert werden: Man muss nur den Roboterkontroller durch einen Client ersetzen und Kamerabeobachtungen und Befehle im gleichen Format bereitstellen, um nahtlos in die physische Welt zu migrieren.

Derzeit sind 7 der wichtigsten Benchmarks (einschließlich LIBERO, SimplerEnv, RoboTwin 2.0, RoboCasa-GR1, BEHAVIOR-1K, CALVIN usw.) integriert, und es ist eine vollständige benchmark-spezifische Adapter-Implementierung enthalten, die die Nachbearbeitungslogik wie die Entnormalisierung von Aktionen, die Aufteilung von Chunks, die Delta/Absolute-Umwandlung usw. durchführt.

Leistung und Effizienz, Beweis für starke Generalisierung bei minimaler Konfiguration

StarVLA vermeidet bewusst komplexe Datenengineering und Online-Optimierung (z. B. DAgger). Mit nur öffentlich verfügbaren VL-Pretraining-Gewichten, die auf der offiziellen Demonstrationsmenge des Benchmarks feingestellt werden, kann es eine konkurrenzfähige Leistung erreichen: