Das Large Language Model (LLM) VLA des ersten Generation Roboters von Xiaomi ist da, glatter als Dove, mit nur 80ms Inferenzverzögerung.
Sagt man so, gibt es in den letzten Tagen noch irgendeine Gala, bei der keine Roboter auftauchen?
Schon bei der CCTV-Neujahrsgala, die das ganze Familienoberhaupt im Jahr freut, werden mehrere Roboter von Firmen mit Embodied AI (eingebetteter Künstlicher Intelligenz) auftreten.
Große und kleine Firmen drängen sich in die Branche, Kapital wird gesucht, die Medien berichten... Embodied Roboter sind fast zum Mittelpunkt der nächsten technologischen Erzählung geworden, nachdem die großen KI-Modelle ihre Zeit hatten.
Die Branche der Embodied Roboter befindet sich tatsächlich an einem sehr interessanten Punkt:
Einerseits gibt es ein wunderschönes visuelles Fest, bei dem alle möglichen schwierigen Bewegungen immer wieder in den sozialen Medien aufgetaucht sind. Das hat die Öffentlichkeit dazu gebracht, an die Zukunft der Embodied AI zu glauben, weil sie "gesehen" hat, was möglich ist.
Andererseits gibt es in der Branche eine dringende Erwartung an den "wirklichen Wert". Die Leute beginnen sich zu fragen, wann diese Roboter endlich in die Fabriken gehen und die alltäglichen Aufgaben erledigen können, um echte Produktivität freizusetzen.
Diese Erwartung spiegelt eigentlich eine Paradigmenwende wider, die die Embodied AI gerade durchmacht.
Damit Roboter wirklich produktiv werden können, muss der Kern ihrer Wertigkeit letztendlich auf "Autonomie" liegen. Derzeitige "menschliche Unterstützung" oder "einzelschrittige Fernsteuerung" sind in der technischen Validierungsphase ein sinnvoller Weg und helfen auch, Daten und Erfahrungen zu sammeln.
Aber wenn ein Roboter während der Ausführung häufig anhält und langsam korrigiert, muss der Mensch häufig eingreifen und unterbricht so den automatisierten Prozess.
Wenn jeder Roboter einen Menschen braucht, der ihm die Fehler ausbügelt, dann... (nicht zu reden.gif)
Die Embodied AI, auf die alle so gespannt sind, ist erst dann keine leere Worte, wenn eine Person gleichzeitig zehn, hundert oder sogar tausend Roboter überwachen kann und wenn jeder Embodied Roboter in der Lage ist, über einen langen Zeitraum kontinuierlich zu entscheiden, zu korrigieren und auszuführen.
Es ist also nicht verwunderlich, dass das erste Embodied VLA-Großmodell von Xiaomi sich auf das Problem der intermittierenden Pausen von Embodied Robotern konzentriert.
Mit einer Parameteranzahl von 4,7 Milliarden erreicht Xiaomi-Robotics-0 eine Inferenzverzögerung von 80 ms und eine Echtzeitsteuerungsfrequenz von 30 Hz und kann auf einer Consumer-Grafikkarte (4090) reibungslos laufen.
Bei den gängigen Benchmarks in simulierten und realen Umgebungen wie LIBERO, CALVIN und SimplerEnv hat Xiaomi-Robotics-0 die bisherigen Bestwerte (SOTA) übertroffen.
Und, das Wichtigste dreimal wiederholt:
Dieses Modell ist Open Source, Open Source, Open Source.
Interpretation der drei technologischen Innovationen von Xiaomi-Robotics-0
Um die oben genannten Ergebnisse zu erzielen, hat Xiaomi bei Xiaomi-Robotics-0 drei Kerntechnologien innoviert, die sich auf die Architekturgestaltung, die Pre-Training-Strategie und die Post-Training-Mechanismen beziehen.
Alle drei Teile zielen auf ein gemeinsames Ziel: Der Roboter soll in der Lage sein, komplexe Umgebungen zu verstehen und Bewegungen kontinuierlich, stabil und präzise auszuführen.
Zweigköpfige Zusammenarbeit: DiT als Kleinhirn zur einmaligen Generierung von kontinuierlichen Bewegungsblöcken
Zuerst gibt es eine große Veränderung auf der Architekturebene.
Xiaomi verwendet die derzeit gängige MoT (Mixture-of-Transformers) Architektur, hat aber geschickt die Arbeit in "Großhirn" und "Kleinhirn" aufgeteilt.
Der Großhirnteil ist ein VLM (Visuelles Sprachmodell), das für das globale Sehen, Hören, Verstehen und Entscheidungen zuständig ist. Für das Kleinhirn wird die nur 16 Schichten umfassende DiT (Diffusion Transformer) Architektur eingeführt.
Die Genialität dieses Designs liegt darin, dass der KV-Cache, der vom Großhirn ausgegeben wird, an das Kleinhirn weitergeleitet wird. Das Kleinhirn ist dann speziell für die Ausgabe von kontinuierlichen Bewegungsblöcken zuständig, was die Granularität der Bewegungsgenerierung verändert.
Das traditionelle diskrete Token-Verfahren führt eine diskrete Codierung von kontinuierlichen Bewegungen durch. Dabei wird die Genauigkeit leicht abgeschnitten, und die Bewegungstrajektorie kann geringfügig diskontinuierlich sein.
DiT in Kombination mit der Flow-Matching-Technik kann direkt kontinuierliche Bewegungsvektoren generieren, wodurch die Bewegungen glatter und geschickter werden.
Zugleich lernt Xiaomi-Robotics-0 durch die Einführung des Flow-Matching-Trainingsmechanismus in der Trainingsphase direkt die Wahrscheinlichkeitsflussabbildung zwischen kontinuierlichen Bewegungsverteilungen. Die Anzahl der erforderlichen Sampling-Schritte in der Inferenzphase wird von den üblichen Dutzenden bis Hunderten bei traditionellen Diffusionsmodellen (z. B. DDPM) auf fünf Schritte reduziert. Die Inferenzkette wird erheblich verkürzt, was die Grundlage für eine Echtzeitsteuerung mit geringer Verzögerung schafft.
Da DiT und das unterliegende VLM beide Transformer-Strukturen haben, kann der KV-Cache des VLM direkt wiederverwendet werden, um redundante Berechnungen zu reduzieren.
Betrachtet man die Gesamtarchitektur, so ist die Verbindung zwischen Großhirn und Kleinhirn über den KV-Cache locker gekoppelt. Dadurch wird sowohl die Verständnisfähigkeit gewährleistet als auch die Rechenmenge kontrolliert.
Dieses locker gekoppelte Design reduziert die Inferenzverzögerung erheblich. Die Bewegungen des Roboters sind nicht nur glatt und geschickt, sondern auch die Reaktionsgeschwindigkeit erreicht den Millisekundenbereich - Ein Modell mit insgesamt 4,7 Milliarden Parametern hat eine Inferenzverzögerung von 80 ms und unterstützt eine Steuerungsfrequenz von 30 Hz. Es kann auf einer Consumer-Grafikkarte (RTX 4090) in Echtzeit reibungslos laufen.
Zweistufiges Pre-Training: Erlernen von Bewegungen und Bewahren der visuellen Verständnisfähigkeit
Mit der zweiten Innovation bei Xiaomi-Robotics-0 hat Xiaomi ein langjähriges Problem von Embodied-Modellen gelöst, nämlich das Problem des "Eines auf Kosten des Anderen".
Viele Modelle verlieren nach dem Lernen einer großen Menge von Roboterbewegungsdaten schnell ihre ursprünglich starke visuelle Verständnisfähigkeit (VL-Fähigkeit). Am Ende können sie nur noch arbeiten, aber nicht mehr denken.
Um sicherzustellen, dass das Modell nicht dumm wird, hat Xiaomi in der Pre-Training-Phase ein zweistufiges spezielles Training durchgeführt.
In der ersten Phase lernt das VLM durch die Choice Policy und die Trajektoriendaten von plattformübergreifenden Robotern, während es Bilder und Befehle versteht, Bewegungsblöcke grob zu prognostizieren.
Der Kern dieses Schritts besteht darin, den visuellen Merkmalsraum und den Bewegungsraum auszurichten, damit das Modell eine Abbildung zwischen "Was man sieht" und "Wie man sich bewegt" herstellen kann.
Zur gleichen Zeit werden in der Pre-Training-Phase visuelle Sprachdaten gemischt, um zu vermeiden, dass das VLM seine ursprüngliche visuelle Inferenzfähigkeit vergisst. Dadurch wird eine Art "Intuition" geschaffen, dass "wenn man dieses Bild sieht, sollte man diese Art von Bewegung haben".
Wenn es in die zweite Phase des feingranularen Bewegungs-Trainings geht, schützt Xiaomi bewusst die ursprüngliche multimodale Allgemeinwissensfähigkeit des Modells.
Genauer gesagt wird in der zweiten Phase das VLM eingefroren, und das DiT wird separat trainiert, um die Flow-Matching-Feinabstimmung zu generieren. Zu diesem Zeitpunkt ist das VLM nur für die stabile multimodale Verständnisfähigkeit zuständig, während sich das Kleinhirn auf die hochpräzise Generierung von kontinuierlichen Bewegungsbahnen konzentriert.
Diese Aufteilung stellt sicher, dass das Modell auch nach der Einführung der Bewegungsfähigkeit eine starke visuelle Sprachfähigkeit behält. Der Roboter kann dann sowohl komplexe Befehle verstehen als auch kontinuierliche Bewegungen planen.
Für langfristige Aufgaben und die Mensch-Roboter-Interaktion ist diese Fähigkeit eine Grundvoraussetzung.
Verbesserte Asynchronität: Lösung des Problems der Bewegungs-Trägheit mit der Λ-förmigen Attention-Maske
Die dritte Innovation zielt direkt auf das hartnäckige Problem der "abweichenden Bewegungen". Das Xiaomi-Robotics-0-Team hat in der Post-Training-Phase ein verbessertes asynchrones Verfahren eingeführt.
Beim traditionellen asynchronen Ausführen wird die vorherige Bewegung als Eingabepräfix verwendet, um die Bewegungsübergänge glatt zu machen. Dies kann aber leicht zu einer Bewegungs-Trägheit führen. Das Modell ist übermäßig von den vergangenen Bewegungen abhängig und ignoriert die aktuelle visuelle Information. Bei Umweltveränderungen ist die Korrektur verzögert.
Xiaomi hat innovativ in der Post-Training-Phase die Λ-shape attention (Lambda-förmige Maskierungsmechanismus) eingeführt.
Wir können uns das so vorstellen, dass man dem Roboter ein Visier mit Rückspiegel montiert hat:
Die Bewegung in der Nähe des Präfixes im Bewegungsblock schaut auf die vorherige Bewegung zurück, um sicherzustellen, dass die Übergänge glatt sind. Der Teil, der weit vom Präfix entfernt ist, wird gezwungen, fest auf die aktuelle visuelle Rückmeldung zu achten, um sicherzustellen, dass die Bewegung in Echtzeit an die Umwelt angepasst wird.
Dieser Mechanismus zwingt das Modell, die Umwelt erneut zu betrachten, während es die Bewegungs-Kontinuität gewährleistet. Dadurch kann es in realen Aufgaben "kontinuierlich und korrigierbar" sein und erreicht den idealen Zustand von sowohl Glätte als auch Präzision.
Dieses verbesserte asynchrone Verfahren ermöglicht es dem Modell, gleichzeitig eine flüssige Bewegung, eine hohe Präzision und eine führende Durchsatzleistung zu erreichen.
Solide Ergebnisse in simulierten und realen Umgebungen
Dank der drei technologischen Innovationen hat Xiaomi-Robotics-0 in den Tests sehr solide Ergebnisse gezeigt.
Zuerst schauen wir uns die Ergebnisse von Xiaomi-Robotics-0 im VLA-Simulations-Benchmark an.
Im VLA-Simulations-Benchmark, der in der Embodied AI am wichtigsten ist, hat Xiaomi fast alle anderen übertroffen.
In sechs Simulationsumgebungen wie LIBERO, CALVIN und SimplerEnv hat Xiaomi-Robotics-0 rund 30 bestehende Modelle, darunter führende Modelle wie π0, π0.5, OpenVLA, RT-1 und RT-2, übertroffen.
(Hinweis: Siehe die Publikation https://xiaomi-robotics-0.github.io/assets/paper.pdf)
Ob es sich um die LIBERO-Testung der Fähigkeit zur Generalisierung in mehreren Aufgaben oder die CALVIN-Testung der Stabilität bei langfristigen Manipulationen handelt, Xiaomi-Robotics-0 hat in beiden Fällen die Rekorde gebrochen. Seine Erfolgsrate hat die des anerkannten Open-Source-Vergleichsmodells π0.5 übertroffen.