Jim Fan von NVIDIA: "Weltmodellierung" ist das neue Generation-Pretraining-Paradigma
Nach der „Vorhersage des nächsten Wortes“ wird die Weltmodellierung zum neuen Pre-Training-Paradigma.
Dies ist die neueste Einschätzung von Jim Fan, Leiter der Robotik bei NVIDIA.
Er ist der Meinung, dass das Jahr 2026 das erste Jahr sein wird, in dem die Large World Models (große Weltmodelle) wirklich die Grundlage für den Bereich der Robotik und die breitere multimodale KI legen.
Xie Saining hat darauf sofort getippt und seine Zustimmung geäußert: „Im Nachhinein scheint es offensichtlich.“
In diesem ausführlichen Artikel diskutiert Jim Fan die Definition und Anwendung von Weltmodellen, konzentriert sich insbesondere auf die Entwicklung im Bereich der physikalischen KI und gibt einen Ausblick auf eine neue Form der Inferenz:
Die Weltmodellierung (world modeling) besteht darin, unter der Bedingung einer gegebenen Aktion den nächsten plausiblen Weltzustand (oder einen Zustand über einen längeren Zeitraum) vorherzusagen.
Der aktuelle Hype um Weltmodelle konzentriert sich hauptsächlich auf den Bereich der KI-Videos, aber 2026 wird es den Ausbruch der physikalischen KI geben.
Weltmodelle benötigen ein breiteres Pre-Training-Ziel: Der nächste Weltzustand sollte nicht nur RGB beinhalten, sondern auch 3D-Bewegungen, Propriozeption und Haptik abdecken.
Es wird eine neue Form der Inferenz auftreten: Die Denk-Kette im visuellen Raum anstelle der Denk-Kette im Sprachraum.
Im Folgenden der vollständige Text des Beitrags:
Das zweite Pre-Training-Paradigma
Die Vorhersage des nächsten Wortes (Next word prediction) war einst das erste Pre-Training-Paradigma, und jetzt erleben wir einen zweiten Paradigmenwechsel:
Die Weltmodellierung (world modeling) oder auch „Vorhersage des nächsten physikalischen Zustands“.
Wenige verstehen wirklich die tiefgreifende Bedeutung dieses Wandels. Leider ist die am meisten hypte Anwendung von Weltmodellen derzeit immer noch die KI-Videos (möglicherweise bald auch die Spiele).
Ich bin sehr zuversichtlich, dass 2026 das Jahr sein wird, in dem die Large World Models erstmals eine reale Grundlage für den Bereich der Robotik und die breitere multimodale KI legen.
Vor diesem Hintergrund definiere ich die Weltmodellierung als: Unter der Bedingung einer gegebenen Aktion die Vorhersage des nächsten plausiblen Weltzustands (oder eines Zustands über einen längeren Zeitraum).
Video-Generierungsmodelle sind eine Implementierungsform davon, wobei der „nächste Zustand“ eine Reihe von RGB-Frames ist (normalerweise 8–10 Sekunden, maximal einige Minuten), und die „Aktion“ ein Text ist, der beschreibt, was ausgeführt werden soll.
Der Trainingsvorgang besteht darin, die zukünftigen Veränderungen von Milliarden von Stunden Video-Pixeln zu modellieren.
Im Wesentlichen sind Video-Weltmodelle lernfähige physikalische Simulatoren und Rendering-Engines.
Sie können Gegenfaktuale (counterfactuals) erfassen, d. h. vorhersagen, wie die Zukunft anders aussehen würde, wenn eine andere Aktion ausgeführt würde – das ist die Inferenz. Weltmodelle sind im Grunde visuell zentriert.
Im Gegensatz dazu sind VLM (Visual Language Models) im Wesentlichen sprachzentriert. Seit den ersten Prototypen (z. B. LLaVA, Liu et al. 2023) verläuft der generelle Weg im Wesentlichen gleich: Das Visuelle tritt am Encoder ein und wird dann in das sprachliche Rückgratnetzwerk eingespeist.
Im Laufe der Zeit werden die Encoder ständig verbessert, die Architektur wird einfacher, und das Visuelle versucht, immer „nativer“ zu werden (z. B. in ganz multimodalen Modellen).
Dennoch ist das Visuelle immer noch ein zweitklassiges Mitglied und kann nicht mit der Fähigkeit der über Jahre hinweg entwickelten LLM (Large Language Models) mithalten. Diese Route ist praktisch, da wir die Skalierbarkeit von LLM kennen, und die Architekturgestaltung, die Datenrezepturen und die Bewertungsmetriken (z. B. VQA) hochgradig auf die Sprache optimiert sind.
Für die physikalische KI dominiert 2025 das VLA (Visual Language Action): Ein Roboter-Aktions-Decoder wird an ein vorgespeichertes VLM angeschlossen.
Strikt genommen ist es eher ein „LVA“: Sprache > Visuelle > Aktion, in absteigender Reihenfolge.
Die meisten Parameter in einem VLM dienen der Wissensrepräsentation (z. B. „Diese Pixelmasse ist die Marke Coca-Cola“), nicht der Physik („Wenn du die Cola-Flasche kippst, wird es eine braune Pfütze bilden, das weiße Tischtuch verschmutzen und möglicherweise den Motor beschädigen“).
Das Design des VLA ist gut für die Wissenssuche, aber die physikalischen Fähigkeiten sind unzureichend verteilt. Das mehrstufige Design der Verknüpfung widerspricht auch meiner Vorliebe für Einfachheit und Eleganz.
Biologisch gesehen dominiert das Visuelle unsere kortikale Berechnung. Etwa ein Drittel der Großhirnrinde wird für die Verarbeitung von Pixeln in den Regionen des Okzipital- , Temporal- und Parietallappens verwendet.
Im Gegensatz dazu hängt die Sprache von einem relativ kompakten Bereich ab. Das Visuelle ist der Kanal mit der höchsten Bandbreite, der unseren Gehirn, unser Bewegungssystem und die physische Welt verbindet. Es schließt die „Sensorimotor-Schleife“ – die Schleife, die Roboter am meisten lösen müssen, und dabei ist keine Sprache erforderlich.
Die Natur gibt uns ein überzeugendes Beispiel: Die hochgradig dexteren physikalischen Intelligenzen sind fast unabhängig von der Sprache – die Affen.
Ich habe Affen Golfwagen fahren und mit einem Schraubendreher Bremsbeläge wechseln gesehen, genauso geschickt wie ein menschlicher Mechaniker.
Ihre Sprachverständnisfähigkeit ist nicht höher als die von BERT oder GPT-1, aber ihre physikalischen Fähigkeiten übertreffen bei weitem unsere derzeit besten Roboter.
Affen haben möglicherweise keine hervorragenden Sprachmodelle, aber sie haben offensichtlich eine solide mentale Repräsentation von „Was wäre, wenn …“: Ein Verständnis dafür, wie die physische Welt funktioniert und wie sie auf ihre Eingriffe reagiert.
Die Zeit der Weltmodellierung ist da.
Dies ist eine Zeit mit bitteren Lehren. Wie Jitendra uns „Skalierungsabhängigen“ immer wieder in Erinnerung bringt:
Überwachung ist das Opium der KI-Forscher.
Die riesigen Mengen an YouTube-Videos und der Aufstieg von Smartbrillen werden die Welt in einem Rohvisuellenstrom erfassen, der weit über die Text-Trainingsgröße hinausgeht.
Wir werden eine neue Form des Pre-Trainings sehen: Der nächste Weltzustand wird nicht nur RGB beinhalten – 3D-Raumbewegungen, Propriozeption und haptische Wahrnehmung sind erst am Anfang.
Wir werden eine neue Form der Inferenz sehen: Die Denk-Kette im visuellen Raum anstelle der Denk-Kette im Sprachraum.
Man kann physikalische Rätsel lösen, indem man geometrische Beziehungen und Berührungen simuliert und sich vorstellt, wie Objekte sich bewegen und kollidieren, ohne es in Zeichenketten zu übersetzen. Die Sprache ist eine Einschränkung, eine Hilfskonstruktion, nicht die Grundlage.
Wir werden einer Reihe neuer Pandora-Box-Probleme gegenüberstehen: Selbst wenn die Simulation in Zukunft perfekt ist, wie soll die Aktion dekodiert werden?
Ist die Pixel-Rekonstruktion wirklich das optimale Ziel, oder sollten wir in andere latente Räume gehen? Wie viel Roboter-Daten werden benötigt? Ist die Skalierung der Fernbedienung noch möglich?
Nachdem wir dies geschafft haben, werden wir endlich den GPT-3-Moment für den Bereich der Robotik erleben?
Ilya hat recht: Die AGI (Künstliche Allgemeine Intelligenz) hat sich noch nicht konvergiert. Wir sind wieder in der Forschungszeit, und es gibt nichts aufregenderes als die Herausforderung an die ersten Prinzipien.
Weltmodelle als neues Paradigma
Insgesamt kann dieser neue Artikel als eine Erweiterung und Vertiefung des dritten Punktes in Jim Fans Jahresrückblick über die Robotik 2025 angesehen werden.
Damals stellte er fest: Der Ansatz auf der Grundlage von VLM dient im Wesentlichen der Sprache und dem Wissen, nicht der physischen Welt selbst.
Damals hatte er das Problem schon sehr klar formuliert:
Die Parameter von VLM sind hauptsächlich auf Sprache und Wissen ausgerichtet, nicht auf die physische Welt.
Visuelle Encoder verwerfen während des Trainings bewusst Details, aber die Robotik-Operationen hängen genau von diesen Details ab.
Daher wird das VLA nicht automatisch stärker werden, wenn das VLM skaliert wird.
Dieser ausführliche Artikel über die Weltmodellierung (world modeling) kann als eine systematische Erweiterung und weitere Überlegung zu dieser Einschätzung von Jim Fan angesehen werden.
Zu seinen Ansichten haben auch Branchengrößen und Internetnutzer ihre Meinung geäußert.
Jack Parker-Holder, Mitverantwortlicher für Genie 3 und Leiter des Weltmodelle-Teams bei Google DeepMind, hat auch seinen Verständnis der Anwendungsfälle von Weltmodellen geteilt:
Weltmodelle sind an sich eine ganz neue Klasse von Basis-Modellen. Sie dienen sowohl dem interaktiven Medium (Video-Modelle) als auch der eingebetteten AGI. Weltmodelle sind die Brücke zwischen den virtuellen und physischen Bereichen, und ihr echter Wert liegt in der Fähigkeit zur Generalisierung über Aufgaben und Bereiche hinweg.
Mit anderen Worten, genauso wie ein LLM als Basis-Modell sowohl programmieren als auch mathematische Probleme lösen kann, können auch die Video-Generierung und die eingebettete Steuerung bei Weltmodellen kompatibel sein.
Spieler wie Google und NVIDIA setzen auch gleichzeitig auf virtuelle Spiele, Videos und physische Roboter.
Allerdings hat auch Arsalan Mousavian, der ehemalige Leiter der Robotik-Forschung bei NVIDIA, gewarnt:
Für die Large World Models (LWM) ist dies eine wunderbare Vision, aber der Sprung von Pixeln zur Physik ist immer noch sehr steil.
Damit Weltmodelle zu zuverlässigen Aktion-Generierungs-Grundgerüsten werden können, müssen folgende Probleme gelöst werden:
Geometrische Konsistenz: Sicherstellen, dass die Kinematik und die Objekt-Konstanz physikalisch korrekt sind.
Identitätserhaltung: Vermeiden von halluzinatorischen Vorhersagen zwischen Entitäten, z. B. dass Roboter A plötzlich in Roboter B verwandelt wird.
Inferenzgeschwindigkeit: Reduzieren der Latenz in der Echtzeit-Schleife. Large World Models erfordern viel Rechenleistung und haben eine hohe Latenz, während Roboter eine hohe Frequenz der Reaktion benötigen.
Aktionssampling: Weltmodelle können Ergebnisse vorhersagen, aber wir müssen immer noch die Aktionen samplen.
In Bezug auf die Datenmenge und die Rechenanforderungen wird dieses Ziel die aktuelle Skalierung von Aktionsstrategien (action-policy scaling) relativ moderat erscheinen lassen.
Außerdem hat die von Jim Fan erwähnte visuelle Inferenz auch zu breiten Diskussionen geführt:
Die Inferenz muss nicht unbedingt von der Sprache abhängen – die visuelle Simulation (Geometrie, Berührung, Bewegung) kann selbst einen Inferenzprozess bilden.
Roboter sind die perfekte Bühne für visuell zentrierte Basis-Modelle. 2026 wird das Jahr der multimodalen, mehrfachen Interaktions-Agenten (Roboter/CUA) sein, und der Sieger dieses Wettbewerbs wird sicherlich die visuelle Modalität in Spielen stärker berücksichtigen.