Für die heißesten VLAs reicht es, sich diese eine Übersichtsarbeit anzusehen.
Eine umfassende Übersicht über das heiße Gebiet VLA (Vision-Language-Action) der ICLR 2026 ist da!
Wenn Sie noch nicht wissen, was VLA ist und wie der Fortschritt in diesem Gebiet, das Robotikwissenschaftler gemeinsam aufregt, ist, reicht es, diesen Artikel zu lesen.
Der Autor dieses Artikels, Moritz Reuss, ist der Gewinner des Apple AI/ML Scholar Award 2025 und hat bereits mehrmals Forschungsergebnisse auf Top-Konferenzen wie RSS, ICLR und NeurIPS veröffentlicht. Diese Übersicht ist sowohl eine Praxiszusammenfassung von einem Forscher an der Frontlinie als auch eine aufschlussreiche Beobachtung der Trends.
Sobald der Artikel veröffentlicht wurde, gab es ständige positive Kommentare im Kommentarbereich. Selbst der Top-Headhunter Mark Wallace hat direkt ein Angebot gemacht.
Wie heiß ist dieses VLA eigentlich?
Nach Statistiken ist die Anzahl der Einreichungen im Zusammenhang mit VLA-Modellen von einzelnen Zahlen im vergangenen Jahr auf 164 gestiegen, was einem Anstieg um das 18-fache entspricht.
Hinter dieser Hype wird es zu einem äußerst attraktiven Vorstoßgebiet in der KI-Branche, Roboter „Menschensprache verstehen, die Welt sehen und Aufgaben ausführen“ zu lassen.
Allerdings taucht auch ein Problem auf: Was reden wir eigentlich über, wenn wir über den Fortschritt von VLA sprechen?
Die Definition von VLA klären
Bevor wir uns eingehend mit den technologischen Trends befassen, müssen wir zunächst ein grundlegendes Konzept klären: Welche Art von Modellen haben das Recht, als VLA bezeichnet zu werden?
Die akademische Welt hat bisher keine einheitliche Definition. Aber der Forscher Moritz Reuss hat in seiner Übersicht ein Kriterium vorgeschlagen:
Ein Modell muss einen auf großen, internetweiten visuell-sprachlichen Daten vortrainierten Rückgrat (pre-trained backbone) verwenden, um als VLA bezeichnet zu werden.
Diese Definition betont die Herkunft der Modellfähigkeiten: VLA muss die Fähigkeiten zur Sprachverstehen, visuellen Verallgemeinerung und Aufgabenübertragung besitzen, die durch die Vorhersage von Bildern und Texten erlernt wurden.
Repräsentative Modelle sind beispielsweise Googles PaLI-X oder Open-Source-Projekte wie Llava, Florence-2 usw.
Wenn ein Modell einfach einen unabhängigen visuellen Encoder und einen Text-Encoder zusammenfügt, sollte es eher als „Multimodale Strategien“ (Multimodal Policies) bezeichnet werden.
Im Zusammenhang damit ist noch ein Konzept erwähnenswert: Große Verhaltensmodelle (Large Behavior Models, LBMs). Dies ist ein Begriff, der vom Toyota Research Institute eingeführt wurde und sich auf Strategien bezieht, die auf „großen, multitastigen Roboter-Demonstrationsdaten“ trainiert wurden.
Man kann es so verstehen:
VLA betont die „Gene“, d. h. es muss von einem starken VLM (Visuelles Sprachmodell) abstammen.
LBM betont das „Nährstoff“, d. h. es muss mit einer großen Menge an Roboter-Betriebsdaten trainiert werden.
Ein VLA, das auf einer großen Menge an Roboter-Daten feinjustiert wurde, ist gleichzeitig ein LBM.
Aber ein LBM ist nicht unbedingt ein VLA. Das Klären dieser Grenze hilft uns, die Schwerpunkte verschiedener technologischer Ansätze zu verstehen.
Acht Trends von VLA anhand der ICLR 2026
Trend 1: Ein neues Paradigma für die effiziente Architektur von VLA
Wenn es um den neuen Trend in der VLA-Architektur dieses Jahres geht, ist es das Diskrete Diffusionsmodell (Discrete Diffusion).
Traditionelle autoregressive Modelle schreiben Wort für Wort und müssen die vorherige Aktions-Einheit generieren, bevor sie die nächste generieren können.
Das diskrete Diffusionsmodell kann jedoch eine gesamte Aktionssequenz parallel generieren. Dies bringt mehrere Vorteile:
- Effiziente Generierung: Reduzierung der Anzahl der Vorwärtsausbreitungen und Verbesserung der Inferenz-Effizienz
- Fusion von Denken und Aktion: Parallele Generierung von Aktionen und Inferenzprozessen (z. B. Teilziele, Positionen von Schlüsselobjekten), d. h. Verleibter Denkzug (Embodied Chain-of-Thought, ECoT)
Im Rahmen dieser ICLR sind mehrere Artikel wie DISCRETE DIFFUSION VLA und dVLA aufgetaucht, die in der LIBERO-Evaluation nahezu gesättigte Ergebnisse erzielt haben.
Trend 2: Verleibter Denkzug (ECoT) lässt Roboter zuerst denken und dann handeln
Um Roboter intelligenter zu machen, reicht es nicht, nur zu imitieren. Sie müssen auch lernen, zu „denken“. Der Verleibte Denkzug (Embodied Chain-of-Thought, ECoT) ist die konzentrierte Darstellung dieses Ansatzes.
Das Kernkonzept ist: Bevor Aktionen generiert werden, werden zunächst eine Reihe von Zwischen-Inferenzschritten generiert, um Roboter stärker in der Planung und Erklärung zu befähigen.
Diese Schritte können sein:
- Textplanung: „Ich muss zuerst die rote Tasse finden“
- Visuelle Wahrnehmung: Lokalisierung von Schlüsselzielen
- Trajektorienplanung: Entwurf von Bewegungswegen
Dieses Modell von zuerst denken und dann handeln ist nicht nur besser interpretierbar, sondern verbessert auch deutlich die Verallgemeinerungsfähigkeit in komplexen Szenarien.
Aber ECoT hängt stark von hochwertigen annotierten Daten ab, und diese Art von Daten ist immer noch relativ rar.
Bei dieser ICLR haben Artikel wie ACTIONS AS LANGUAGE und EMBODIED-R1 durch die Entkopplung von Inferenz und Aktion und den mehrstufigen Trainingsablauf in der SIMPLER-Evaluation hervorragend abgeschnitten.
Trend 3: Aktions-Tokenizer macht Aktionen sprachlich darstellbar
Eine zentrale Herausforderung von VLA ist: Wie können kontinuierliche, hochfrequente Roboter-Aktionen in diskrete „Wörter“ (Token) umgewandelt werden, die von VLM verstanden werden können?
Genau hier kommt der Aktions-Tokenizer ins Spiel. Er ist die Brücke zwischen dem „Gehirn“ von VLM und dem „Körper“ des Roboters.
Die neuen Fortschritte dieses Jahres umfassen:
- FASTer Tokenizer: Kombination von Residual Vector Quantization (RVQ), um ein Gleichgewicht zwischen Komprimierungsrate und Aktionskontinuität zu erreichen
- OmniSAT: Modellierung von Aktionen mit Hilfe von B-Spline-Kurven (B-Splines), um eine kompaktere Darstellung zu erzielen
In LIBERO und SIMPLER haben diese Methoden die Genauigkeit und Stabilität verbessert und die Grundlage für die Sprachmodell-gesteuerte Roboterkontrolle gelegt.
Trend 4: Reinforcement Learning (RL) schließt die letzte Meile
Obwohl Imitationslernen die Grundoperationen schnell erlernen kann, ist seine Leistung in extremen Szenarien immer noch begrenzt. Daher ist Reinforcement Learning (RL) wieder aufgetaucht und dient als Werkzeug zur Feinjustierung von VLA-Strategien.
Die repräsentativen Technologien dieses Jahres umfassen:
- Residual RL (Residual RL): Überlagerung einer leichten „Residual-Strategie“ auf eine gefrorene VLA-Strategie, um Interventionen und Optimierungen in kritischen Situationen zu ermöglichen
- Stufenbewusstes RL (Stage-aware RL): Aufteilung komplexer Aufgaben in semantische Stufen und Durchführung von Stufen-basierten Belohnungen und Strategietraining
Werke wie SELF-IMPROVING… VIA RESIDUAL RL und PROGRESSIVE STAGE-AWARE… haben in LIBERO und SIMPLER eine Erfolgsrate von 99 % bzw. 98 % erzielt.
Trend 5: Effizienzoptimierung (Efficiency) macht VLA zugänglicher
VLA-Modelle sind riesig und teuer, was viele kleine und mittlere Labore abschreckt. Daher ist die Effizienzoptimierung ein Forschungsschwerpunkt geworden.
Typische Vertreter sind diese beiden Richtungen:
- Inferenzeffizienz: Beispielsweise verwendet HyperVLA einen Hypernetz-Mechanismus, um ein leichtgewichtiges Strategienetzwerk dynamisch zu generieren
- Speicherplatzbedarf: Beispielsweise verwendet AutoQVLA eine intelligente Quantisierung, um die Modellgröße zu komprimieren und gleichzeitig die Leistung aufrechtzuerhalten
Diese Methoden haben die Hardware-Anforderungen erheblich gesenkt und es ermöglicht, dass mehr Forscher an der VLA-Forschung teilnehmen können.
Trend 6: Video-Vorhersage verleiht VLA physikalische Intuition
Video-Generierungsmodelle verstehen von Natur aus zeitliche Dynamiken und physikalische Gesetze, was für die Roboterkontrolle eine starke A-priori-Information ist.
Es gibt hauptsächlich zwei Ansätze in dieser Richtung:
- Hinzufügen einer Aufgabe zur Vorhersage zukünftiger Frames auf der Grundlage von VLM
- Starten von einem großen Video-Generierungsmodell (z. B. NVIDIAs Cosmos) und Feinjustierung, um die Fähigkeit zur Aktionenerzeugung zu erlangen
Beispielsweise hat COSMOS POLICY erfolgreich ein Video-Basismodell für die Roboterkontrolle feinjustiert und es in der realen Welt mit Frontlinien-Modellen wie Pi-0.5 verglichen.
Diese Arbeiten zeigen, dass die Fähigkeit von VLA, die Zukunft „vorzustellen“, seine Einsicht in die physikalische Welt effektiv verbessern kann.
Trend 7: Realistischere Evaluationskriterien
Wie später erwähnt wird, sind die bestehenden Evaluationssätze nahezu gesättigt. Daher entwickelt die Community derzeit aktiv neue Evaluationsmethoden.
- ROBOTARENA ∞ stellt einen Evaluationsrahmen von Real zu Simuliert (Real-to-Sim) vor, der Umgebungen automatisch erstellen und bewerten kann
- RoboCasa365 bietet eine umfangreiche Simulationsumgebung mit 365 Aufgaben und über 2.000 Küchenszenarien
- WorldGym stellt sogar eine revolutionäre Idee vor: Die direkte Verwendung eines generativen Weltmodells als Evaluationsumgebung
Diese neuen Kriterien zielen darauf ab, die Überanpassung an bestehende Testsets zu brechen und die VLA-Forschung hin zu einer sinnvolleren Verallgemeinerungsfähigkeit zu bringen.
Trend 8: Transkörperliches Lernen ist der unvermeidliche Weg
Wie kann ein Modell gleichzeitig Roboter mit unterschiedlicher Struktur (Aktionsraum) ansteuern? Dies ist die zentrale Herausforderung auf dem Weg zu universellen Robotern.