Jahresrückblick: Embodied AI-Robotik von der Leiterin der Robotikabteilung bei NVIDIA

Die Demo, die nur einmal erfolgreich ist nach hundert Versuchen, sollte gestoppt werden.

„Die Robotik befindet sich noch in der Wilden West-Phase.“

Dies ist die Einschätzung von Jim Fan, dem Leiter der Robotikabteilung bei NVIDIA, am Ende des Jahres 2025.

Bei ersten Anhörung klingt diese Schlussfolgerung etwas schroff.

Nach alledem haben wir in diesem Jahr gesehen, wie Roboter Tischtennis und Basketball spielen und komplexe Transportaufgaben über lange Strecken und zwischen verschiedenen Szenarien bewältigen –

Natürlich fehlen auch die verschiedenen peinlichen „Katzenjammer“-Momente nicht.

Aber wie Jim Fan und kluge Internetnutzer wiederholt darauf hingewiesen haben:

Viele Demonstrationen sind im Wesentlichen nur die beste aus Hunderten von Versuchen.

Hinter alledem verbirgt sich genau das zentrale Problem, dass es in der Robotik bis heute kein einheitliches und reproduzierbares Standard-Testsystem gibt.

Genau aus diesem Grund kann fast jeder behaupten, SOTA (State of the Art) erreicht zu haben, indem er einfach einige Einschränkungen hinzufügt.

Darüber hinaus hat Jim Fan auch darauf hingewiesen –

Der gegenwärtige Fortschritt bei der Robotik-Hardware ist schneller als bei der Software, aber die Zuverlässigkeit der Hardware ist unzureichend, was die Iterationsgeschwindigkeit der Software einschränkt. Gleichzeitig gibt es auch strukturelle Probleme in der gängigen Technologieparadigma von VLM→VLA.

Im Folgenden der vollständige Text des Beitrags:

3 Dinge, die ich in der Robotik im Jahr 2025 gelernt habe

Jeder ist von der Vibe-Coding-Atmosphäre begeistert. Lassen Sie mich in der Festtagsstimmung meine Sorgen über die „Wilde West der Robotik“ teilen – drei Lehren, die ich im Jahr 2025 gelernt habe.

Die Hardware ist der Software voraus, aber die Zuverlässigkeit der Hardware hemmt die Iterationsgeschwindigkeit der Software stark

Wir haben schon äußerst raffinierte Ingenieurwerke gesehen: Optimus, e-Atlas, Figure, Neo, G1 und so weiter.

Das Problem ist jedoch, dass unsere besten KI-Systeme noch lange nicht das Potenzial dieser fortschrittlichen Hardware ausschöpfen können. Die Fähigkeiten des (Roboters) Körpers sind deutlich stärker als die Befehle, die das Gehirn derzeit geben kann.

Um diese Roboter zu betreuen, wird jedoch oft ein ganzer Betriebsteam benötigt.

Roboter können sich nicht wie Menschen selbst reparieren: Überhitzung, defekte Motoren, seltsame Firmware-Probleme sind fast tägliche Alpträume.

Fehler sind, sobald sie auftreten, irreversibel und unnachsichtig.

Das einzige, was sich tatsächlich skaliert, ist meine Geduld.

Die Benchmark-Tests in der Robotik sind immer noch eine epische Katastrophe

In der Welt der Large Language Models weiß jeder, was MMLU und SWE-Bench sind.

Aber in der Robotik gibt es keine Einigkeit: Welche Hardwareplattform soll verwendet werden, wie sollen die Aufgaben definiert werden, was sind die Bewertungsstandards, soll ein Simulator verwendet werden oder direkt die reale Welt?

Per Definition ist jeder SOTA – denn bei jeder Pressemitteilung wird ein neuer Benchmark ad-hoc definiert.

Jeder wählt aus 100 Fehlversuchen die schönste Demo aus.

Bis 2026 müssen wir in unserem Bereich besser werden und nicht mehr Reproduzierbarkeit und wissenschaftliche Standards als zweitrangig behandeln.

Der VLA-Ansatz auf Basis von VLM scheint nicht richtig zu sein

VLA steht für Vision-Language-Action (Visuelle-Sprache-Aktion)-Modell, und derzeit ist dies das gängige Paradigma für Roboterhirne.

Das Rezept ist auch einfach: Man nimmt einen vortrainierten VLM-Checkpoint und „pflanzt“ darauf ein Aktionsmodul.

Aber wenn man darüber nachdenkt, werden Probleme deutlich. VLM ist im Wesentlichen hochoptimiert, um Benchmarks wie visuelle Fragen und Antworten zu bestehen, was zwei direkte Folgen hat:

Die meisten Parameter von VLM dienen der Sprache und dem Wissen, nicht der physischen Welt.

Der visuelle Encoder wird bewusst trainiert, um niedere Details zu verwerfen, da die Fragen-und-Antwort-Aufgaben nur ein hohes Verständnis erfordern. Für Roboter sind jedoch winzige Details für feinfühlige Manipulationen von entscheidender Bedeutung.

Daher gibt es keinen Grund, dass die Leistung von VLA linear mit der Parameteranzahl von VLM steigt. Das Problem liegt darin, dass die Vortrainingsziele nicht übereinstimmen.

Im Vergleich dazu ist das Video-Weltmodell (video world model) offensichtlich ein vernünftigeres Ziel für das Vortraining von Robotern. Ich setze stark auf diese Richtung.

Unter Jim Fans Tweet haben auch viele Internetnutzer ihre Zustimmung geäußert.

Einige Internetnutzer haben angemerkt, dass die Fehlertoleranz der Hardware wirklich sehr wichtig ist:

Die Hardware-Beschränkungen führen zu einer langsamen Iteration, was ein oft unterschätzter Engpass ist. Die Software kann hochfrequent aktualisiert werden, aber das physikalische System muss auf einer zuverlässigen mechanischen Basis aufgebaut werden, was reale Zeit für die Validierung und Verbesserung erfordert.

Die Hardware ist wichtig, aber die Daten sind noch wichtiger

In Jim Fans Diskussion wurde die Hardware in den Mittelpunkt gestellt, aber gleichzeitig haben wir festgestellt, dass Daten als ein zentrales Element ignoriert wurden.

In der Robotikforschung prägen die Daten die Fähigkeiten des Modells, und die Leistung des Modells hängt von der Hardware ab. Dies ist das typische Full-Stack-Kennzeichen.

In diesem Jahr haben wir neue Hardware-Geräte wie Figure03, Unitree H2, Zhongqing T800, XPENG IRON und ZHIYUAN JINGLING G2 gesehen.

Beim Anzeigeeffekt zeigen diese neuen Hardware-Geräte beeindruckende Bewegungsfähigkeiten:

Ob es das Sommersault von Unitree oder die Gangsteuerung des XPENG-Roboters ist, beides übertrifft deutlich das Durchschnittsniveau zu Jahresbeginn und beweist, dass auch große Roboter (in Erwachsenengröße) so agil sein können wie kleine Roboter.

Das reale Problem ist möglicherweise, wie Jim und die Internetnutzer erwähnt haben, wie man die Zuverlässigkeit der Hardware weiter verbessert, während man die hohe Leistung aufrechterhält, wie z. B. die Sturzfestigkeit, die Batterieerwärmung und die Langzeitstabilität. Dies sind Herausforderungen auf dem technischen Gebiet.

In Bezug auf die Daten ist eines der bemerkenswertesten Beispiele dieses Jahres Generalist, das durch eine große Datenmenge das Skalierungsgesetz der Embodied AI bewiesen hat.

Dabei gilt: Je größer die Datenmenge und je höher die Anzahl der Modellparameter, desto besser ist die Leistung des Modells bei bestimmten Aufgaben, was mit dem Phänomen übereinstimmt, das wir bei den Large Language Models beobachtet haben.

Außerdem ist auch ein maßgeschneidertes Roboter-Hardware-System wie Sunday aufgetaucht, das die Datenerfassung erleichtert.

Dieses System ist zusammen mit der Roboterhand entworfen und verwendet Handschuhe zur Fähigkeitserfassung, um menschliche Bewegungsdaten zu sammeln. Es kann diese Daten mit einer Erfolgsrate von fast 90% in für Roboter nutzbare Daten umwandeln.

Ebenfalls beachtet wurde Egocentric-10K, ein großer Datensatz mit 10.000 Stunden Arbeitsdaten.

Man kann sagen, dass in der Embodied AI die Wichtigkeit von Daten selbstverständlich ist. Aber die konkrete Datenstrategie hat sich noch nicht gebildet: Datenerfassung aus menschlicher Perspektive (Tragergeräte, Umi, Videos), Daten von Fernsteuerung echter Roboter, Simulationsdaten, Internetdaten, Datenmodalitäten und die Verteilung sind noch offene Fragen.

Das wichtigste Schlagwort der Robotik im Jahr 2025 – VLA

In Bezug auf die Modelle ist VLA zweifellos das heißeste Schlagwort in der Robotik im Jahr 2025.

Nach der neuesten Zusammenfassung von Forschungsinstituten wie der King's College London und der Hong Kong Polytechnic University wurden im Jahr 2025 allein über 200 Arbeiten zu VLA veröffentlicht.

Vor kurzem hat ein Internetnutzer auch gespottet: Im Jahr 2026 könnte es vielleicht 10.000 Arbeiten zu VLA geben.

Was ist also eigentlich VLA?

Einfach ausgedrückt, gibt VLA einem Roboter ein Gehirn, das gleichzeitig Informationen aus drei Modalitäten verarbeiten kann:

Vision (V): Wahrnehmen der Umgebung über Kameras und Verstehen der Form, Position, Farbe, des Zustands und der Layouts von Objekten.

Sprache (L): Verstehen natürlicher menschlicher Sprachbefehle (z. B. „Bringe den roten Apfel auf dem Tisch in die Schüssel“) und Durchführen von höheren logischen Schlüssen.

Aktion (A): Umwandeln der verstandenen Befehle in eine Sequenz von niedrigen physikalischen Aktionen, die der Roboter ausführen kann (z. B. Bewegen von Gelenken, Greifen, Schieben usw.).

Herkömmliche Roboter müssen normalerweise für jede neue Aufgabe speziell programmiert oder trainiert werden. VLA-Modelle können jedoch durch das Lernen mit großen Datenmengen Aufgaben ausführen, die nicht explizit im Training vorkamen, und sogar in unbekannten Umgebungen arbeiten, was ihnen Generalis