StartseiteArtikel

VLA ist tot, die Fernbedienung ist auch tot, so sagte der erste Stellplatz des NVIDIA-Roboters.

量子位2026-05-11 08:11
Jim Fan hat kürzlich eine neue kontroverse Äußerung gemacht.

Das VLA ist tot. Es ist Zeit für Weltaktionsmodelle. Fernsteuerung ist tot, die Sensordaten des Menschen leben weiter.

Bei der diesjährigen Sequoia AI Ascent 2026 hat Jim Fan in nur 20 Minuten zwei "Trauerfeiern" für die Robotikbranche abgehalten.

Bei der ersten hat er das VLA verabschiedet, das in den letzten drei Jahren fast die ganze Embodied AI dominiert hat. Bei der zweiten hat er die Fernsteuerung verabschiedet, von der alle dachten, dass man noch viele Jahre davon profitieren würde.

Als derzeitiger Leiter der Robotikrichtung bei Nvidia hat Jim Fan im vergangenen Jahr noch auf derselben Bühne darüber gesprochen, wie Roboter Tests bestehen können. In diesem Jahr diskutiert er bereits -

Wie stirbt das alte Paradigma und wie entsteht das neue?

Nach Jim's Ansicht muss das neue Paradigma in hohem Maße von den LLM lernen.

Das Vorhersagen des nächsten Weltzustands in der Vorhersagephase entspricht der next token prediction der LLM;

Das Feintuning der Aktionen, um die für reale Roboter wertvollen Teile zu kalibrieren, entspricht dem supervised finetuning;

Schließlich wird der letzte Schritt von der Reinforcement Learning geschafft.

In der vergangenen Zeit hat Nvidia eine Reihe von Projekten wie EgoScale, DreamDojo und Dream Zero veröffentlicht und fast alleine die Richtung der Embodied AI 2026 definiert.

In der Rede namens "Robotics: Endgame" sind Jim Fans neuesten Überlegungen zu VLA, Weltmodellen, Fernsteuerung, UMI, egocentric, Simulation, Scaling Law und anderen Bereichen der Robotik zusammengefasst. Sie ist sehr lesenswert.

Im Folgenden sind die Kernaussagen der Rede zusammengefasst:

  • Das VLA ist tot. Das WAM wird als neues Vorhersageparadigma auftreten.
  • In den nächsten ein bis zwei Jahren wird der Anteil der Fernsteuerung so gering werden, dass er fast vernachlässigbar ist. Die "Hauptnahrung" der Roboter wird erste - Person - Videos des Menschen werden, und das gesamte Datenparadigma wird sich hin zu "Sensorized Human Data" (Sensordaten des Menschen) wenden.
  • Die ersten - Person - Videos des Menschen haben das Scaling Law in der Robotik angeregt. Nvidia wird sich vollständig auf erste - Person - Videos des Menschen konzentrieren.
  • Rechenleistung = Umgebung = Daten.
  • Es bleiben nur noch drei Errungenschaften auf dem Robotik - Techbaum zu entsperren: Der physikalische Turing - Test (innerhalb von 2 - 3 Jahren), die Physical API und die Physical Auto Research. Es ist zu hoffen, dass alle bis 2040 entsperrt werden können.

Im Folgenden ist der vollständige Text der Rede.

(Zur besseren Lesbarkeit wurden einige Anpassungen vorgenommen.)

Robotics: Endgame

Eines Sommertags 2016 befand ich mich in unserem heutigen Büro. Ein Mann in einer glänzenden Lederjacke mit kräftigen Armen hielt einen großen Metallteller in der Hand.

Auf ihm stand geschrieben: "An Elon und das OpenAI - Team, an die Zukunft der Berechnung und des Menschen. Ich werde Ihnen die erste DGX1 der Welt zeigen."

Das war das erste Mal, dass ich Jensen Huang sah. Wie jeder gute Praktikant habe ich mich beeilt, mich in die Warteschlange zu stellen und meinen Namen zu unterschreiben.

Können Sie ihn finden? Mein Name ist hier, und auch der Name von Andrej Karpathy.

Damals hatte ich überhaupt keine Ahnung, was mich erwartete. Und niemand kann die folgenden Ereignisse besser beschreiben als Ilya selbst:

Wenn Sie an Deep Learning glauben, wird es auch an Sie glauben.

Tatsächlich hat ihre Überzeugung von Deep Learning uns alle infiziert.

Drei Schritte in sechs Jahren, so ist unsere Reise bis heute.

Erster Schritt (2020): Die Vorhersage des nächsten Tokens in der GPT - 3 - Vorhersagephase. Dies ist hauptsächlich das Lernen von Grammatikregeln und das Verstehen der Sprachstruktur, um das Entfalten von Gedanken, Code und Zeichenketten zu simulieren.

Zweiter Schritt (2022): Der InstructGPT kalibriert die Simulation durch supervised finetuning, damit er reale Aufgaben ausführen kann oder die Reinforcement Learning über das Imitationslernen hinausgehen kann.

Dritter Schritt (2026): Die automatische Forschung (Autoresearch) beschleunigt den gesamten Zyklus und übersteigt die Fähigkeiten des Menschen.

Wie Andrej sagte, streben alle Bemühungen dem Endziel entgegen. Für die LMS (Sprachmodellsysteme) befinden sie sich in der Endphase.

Ehrlich gesagt, bin ich sehr neidisch. Man sieht an Andrejs Lächeln, wie glücklich er ist.

Das Sprachmodellteam genießt seinen Höhepunkt. Sie entwickeln rasant die AGI (Allgemeine Künstliche Intelligenz) und nennen ihre Schöpfungen auf dem Weg "Mythos".

Warum können die Roboterforscher nicht auch diese Freude genießen?

Als stolzer Wissenschaftler habe ich ihre Idee kopiert und sie "Großer Parallelismus" genannt.

Anstatt Zeichenketten zu simulieren, simulieren wir den nächsten Zustand der physischen Welt (next physical world state), kalibrieren dann die für reale Roboter wertvollen Teile der Simulation durch Aktionenfeintuning und lassen die Reinforcement Learning den letzten Schritt schaffen.

Der Große Parallelismus ist die Kopie der erfolgreichen Strategie der Sprachmodelle. Wenn man nicht gewinnen kann, wird man sich anschließen.

Im nächsten Kapitel geht es um "Robotics: Endgame".

Entschuldigung, ich kann es nicht lassen, einen kleinen Witz zu machen. Bananen sind so lustig. Danke, Hassabis.

Wie spielt man das Endspiel? Es kommt auf zwei Dinge an: die Modellstrategie und die Datenstrategie.

Schauen wir uns zunächst die Modellstrategie an. In den letzten drei Jahren haben die Visual - Language - Action - Modelle (VLA) dominiert. Modelle wie Pi und Gr00t gehören auch zu dieser Kategorie.

Wir nehmen an, dass die Vorhersage von VLM (Visual Language Model) durchgeführt wird, und fügen dann einen Aktionskopf hinzu.

Tatsächlich sind diese Modelle LVA (Language Visual Action). Die meisten Parameter werden für die Sprache verwendet, was die Sprache zur Kernkomponente macht, gefolgt von der Vision und den Aktionen.

Im VLA ist die Sprache die erste Klasse, während Vision und Aktionen in den Hintergrund treten.

Beim Design ist das VLA besser darin, Wissen und Nomen zu kodieren, aber es ist in Bezug auf Physik und Verben schwächer. Es ist ein bisschen "kopfschwer".

Mein Lieblingsbeispiel aus der ursprünglichen VLA - Studie (RT - 2) ist das Verschieben einer Cola auf ein Bild von Taylor Swift.

Es hat sie nie gesehen, kann aber generalisieren. Dies ist jedoch nicht die von uns gewünschte Vorhersagefähigkeit.

Was ist dann das zweite Vorhersageparadigma?

Wir denken, dass das zweite Vorhersageparadigma eigentlich sehr schön sein sollte. Leider ist es zu "AI - Videomüll" geworden, wie das Anschauen von Katzen, die auf einer Überwachungskamera auf einer Banjo spielen.

Obwohl dies scheinbar unterhaltsam ist, wird es von niemandem ernst genommen, bis wir festgestellt haben, dass diese Videomodelle tatsächlich intern lernen, den nächsten Weltzustand zu simulieren.

Hier sind einige Beispiele von Veo3. Das Modell hat automatisch physikalische Gesetze wie Gravitation, Auftrieb, Licht, Reflexion und Brechung gelernt, ohne dass diese explizit kodiert wurden. Durch die Vorhersage der nächsten Pixelmassen haben sich die physikalischen Gesetze von selbst entwickelt, und die visuelle Planung ist natürlich entstanden.

Wie löst Veo - 3 diese Objekte? Durch die Vorwärtsimulation im Pixelraum. Beachten Sie besonders die rechte untere Ecke. Dies ist mein Lieblingsbeispiel. Veo3 ist sehr klug. Es erkennt, dass die Geometrie optional ist, wenn man nicht hinsieht. Ich nenne dies "physikalischer Müll".

Wie können wir diese Weltmodelle nützlich machen? Wir komprimieren die Überlagerung aller möglichen zukünftigen Zustände durch Aktionenfeintuning auf die für reale Roboter wertvollen Teile.

So entstand Dream Zero.

Dream Zero ist ein neues Strateg