Entschuldigung: Roboter können die Welt nicht nur durch Sehen verstehen

Der Aufstieg von KI-Weltmodellen: Der Videopfad wird zum Schlüssel. Zhu Jun: 2026 wird ein Durchbruch eintreten.

Im Jahr 2026 geht die KI von der "Ära der Generativmodelle" in die "Ära der Weltmodelle" über.

Das Team von Yann LeCun, Preisträger des Turing-Awards, hat kürzlich das LeWorldModel basierend auf der JEPA-Architektur veröffentlicht. Die World Labs von Fei-Fei Li, Professorin an der Stanford University, hat Ende 2025 das erste kommerzielle 3D-Weltmodell namens Marble vorgestellt. Aus Sicht der Branche haben fast alle Unternehmen im Bereich Embodied AI das Weltmodell als Kerntechnologie festgelegt und versuchen, Roboter in die Lage zu versetzen, die physische Welt wirklich zu verstehen und vorherzusagen. Das Weltmodell ist bereits zu einem Branchenkonsens geworden.

Aus Sicht des aktuellen technologischen Paradigmas haben sich in Bezug auf das Weltmodell ungefähr mehrere Ansätze gebildet:

Der erste Ansatz ist der abstrakte Vorhersagepfad der JEPA. Hier wird nicht auf die pixelgenaue Wiedergabe geachtet, sondern es wird darauf geachtet, die kausalen Strukturen und physikalischen Gesetze der Welt im kompakten latenten Raum zu lernen. Das kürzlich von Yann LeCun veröffentlichte LeWorldModel ist der neueste Fortschritt auf diesem Weg.

Der zweite Ansatz ist der 3D/Simulations-gesteuerte Pfad. Hier wird eher versucht, durch die Konstruktion einer kontrollierbaren virtuellen Umgebung oder 3D-Rekonstruktion das Modell in der "berechenbaren Welt" die physikalischen Gesetze und Interaktionslogik zu lernen. Die World Labs von Fei-Fei Li und ihr Produkt Marble sind repräsentativ für diesen Ansatz.

Der dritte Ansatz ist der video-gesteuerte Pfad. Ausgehend von Video-Generativmodellen soll das Modell nicht nur verstehen, was in einem Video passiert, sondern auch die dahinter liegenden physikalischen Gesetze verstehen und daraus Handlungen vorhersagen und generieren können. Es geht also von der "Videoerzeugung" zur "Verständnis der Welt und Handeln". Derzeit forschen Unternehmen wie Shengshu Technology und Runway in diese Richtung.

In diesem Wettlauf um die besten Ansätze ist Zhu Jun, Gründer von Shengshu Technology und Vizepräsident des Instituts für Künstliche Intelligenz der Tsinghua-Universität, einer der entschiedenen Befürworter des Video-Pfads. Am Nachmittag des 29. März auf der "AI-Zukunftsfachtagung des Zhongguancun-Forums" sagte Zhu Jun, dass das "allgemeine Weltmodell" die Brücke zwischen der digitalen und der physischen Welt ist und dass Video die natürlichste Datenform zur Aufzeichnung der realen Welt ist.

Zhu Jun geht davon aus, dass das Weltmodell in Zukunft zum Kern "Intelligenzzentrum" aller Arten von Agenten werden wird und dass es 2026 einen schnellen Durchbruch erleben wird.

Nach der Veranstaltung führte Tencent Technology ein weiteres Gespräch mit Zhu Jun. In der Situation, in der mehrere technologische Ansätze parallel verfolgt werden, warum hat der Video-Pfad möglicherweise die beste Chance, die Fähigkeits-Schließung des Weltmodells zu erreichen? Wie soll der Implementierungsrhythmus dieses Pfads in realen Szenarien vorangetrieben werden? Welche Kerntechnologien und Datenprobleme bestehen derzeit? Und in welchen Anwendungsbereichen wird zuerst ein Durchbruch erzielt?

Im Folgenden ist die Zusammenfassung des Gesprächs mit Zhu Jun:

F: Warum ist das "Weltmodell" in diesem Jahr zu einem großen Branchentrend geworden?

Zhu Jun: Dies ist eigentlich ein schrittweiser Evolutionsprozess.

Im Vergleich zu früheren Modellparadigmen erfordert das Weltmodell eine umfassendere Fähigkeit. Es muss nicht nur Sprache verstehen und in der Lage sein, zu kommunizieren, sondern auch multimodale Fähigkeiten haben, wie z. B. das Betrachten von Bildern, das Verstehen von Videos und sogar andere Modalitäten wie das Tastempfinden. Gleichzeitig muss es auch die Fähigkeit zur Handlungsgenerierung haben. Daher ist die Gesamtkomplexität höher.

Aus Sicht des technologischen Entwicklungspfads gibt es auch eine relativ klare Evolutionsreihenfolge: Zuerst war es die Entwicklung der Sprachmodelle, gefolgt vom Durchbruch der Videomodelle. Nach dem Fortschritt der Videomodelle haben wir einen sehr natürlichen und entscheidenden Übergang gesehen - das Video-ursprüngliche Modell kann sich auf das Verständnis der physischen Welt erstrecken. Sobald die Handlungsfähigkeit eingeführt wird, wird allmählich eine einheitliche Architektur des Weltmodells gebildet.

Daher hängt die Entstehung des Weltmodells in gewissem Maße vom rapiden Fortschritt der Videomodelle ab. Gleichzeitig wird sich diese Richtung auch in vielen neuen Dimensionen weiterentwickeln, wenn mehr Modalitäten und Fähigkeiten kontinuierlich integriert werden.

F: Derzeit forschen Wissenschaftler wie Yann LeCun und Fei-Fei Li auf verschiedenen Wegen nach dem Weltmodell, z. B. eher in Richtung 3D-Rekonstruktion oder Simulationsumgebung. Warum hat Shengshu Technology den "Video"-Pfad als Kernpfad gewählt? Was ist der wesentliche Unterschied zwischen diesem Pfad und anderen Richtungen?

Zhu Jun: Wir betrachten immer dieses Problem aus der Perspektive des ersten Prinzips des Basis-Modells. Die Entwicklung eines Basis-Modells hängt im Wesentlichen von zwei Kernfaktoren ab: Erstens muss es genügend Daten in ausreichender Größe geben, und zweitens muss die Modellarchitektur selbst skalierbar sein.

Bei der Modellarchitektur waren wir eines der ersten Teams in der Branche, die die DiT (Diffusion Transformer)-Architektur nutzten, und wir haben bereits bestätigt, dass dieser Pfad die Modellleistung durch die Erhöhung der Parametergröße kontinuierlich verbessern kann.

Auf der Datenebene halten wir Video für die derzeit am besten geeignete und am allgemeinsten verwendete Datenform zur Aufzeichnung der realen Welt. Es enthält nicht nur reiche Informationen über die Funktionsweise der Welt, sondern auch eine natürliche Menge an Handlungs- und Verhaltensinformationen. Darüber hinaus hat Video-Daten die Fähigkeit zur kontinuierlichen Erweiterung - die reale Welt ändert sich ständig, und Video-Daten können ununterbrochen generiert werden.

Im Vergleich dazu ist der andere Pfad eher auf die Rendering ausgerichtet, wie z. B. die 3D-Umgebungsmodellierung oder die 3D-Objektrekonstruktion, und konzentriert sich hauptsächlich auf die Wiedergabe und Rekonstruktion von Szenen. Das Rendering an sich hat natürlich seinen Wert, aber es dient hauptsächlich den visuellen Bedürfnissen der Menschen.

Für Maschinen jedoch muss nicht jedes Pixel detailliert wiedergegeben werden. Sie müssen nur ihren eigenen Zustand wahrnehmen und die Bewegungsgesetze oder auszuführende Anweisungen verstehen, um die Aufgabe zu erfüllen.

Daher kann die Modelltraining auf der Basis von Video einerseits die Massentraining und -iterationen ständig unterstützen, andererseits kann es auch unnötige Rendering-Aufwendungen vermeiden und somit bei der Effizienz einen Vorteil haben.

F: Im Vergleich zu Sprachmodellen ist die Rechenintensität des Video-Pfads höher, und die Kosten für Training und Inferenz sind auch höher. Wird dieser Kostendruck zum Kernproblem bei der Entwicklung des Weltmodells auf dem Video-Pfad?

Zhu Jun: Das Problem der Rechenkosten und -menge ist für alle Teams, die an großen Modellen arbeiten, unvermeidlich, aber dieses Problem ist nicht unauflösbar.

Die Rechenweise von Video ist sehr unterschiedlich von der von Sprachmodellen. Die Sprachverarbeitung ist normalerweise sparse, während die Rechenintensität von Video höher ist. Aber im Bereich Video können wir die parallele Rechenarchitektur der GPU voll ausnutzen. Darüber hinaus entwickeln sich die Algorithmen sehr schnell. Beispielsweise können wir die Rechenweise mit niedriger Präzision anwenden, um die Hardwareleistung voll auszunutzen und den Training- und Inferenzprozess deutlich zu beschleunigen.

Ich bin überzeugt, dass zuerst die Obergrenze der Intelligenzfähigkeiten durchbrochen wird. Dann, mit der kontinuierlichen Iteration von Algorithmen und Hardware, werden die Rechenschwierigkeiten, mit denen wir heute konfrontiert sind, möglicherweise in Zukunft keine Schwierigkeiten mehr sein.

F: Welche Schritte sind derzeit die größten Herausforderungen bei der Verarbeitung und Nutzung von großen Mengen an Video-Daten? Was sind die Kernprobleme, die bei der Datenverwaltung gelöst werden müssen?

Zhu Jun: Die Kernherausforderung bei der Datenverarbeitung besteht darin, dass die Datenverwaltung in Synergie mit dem Modell und dem Algorithmus stehen muss, anstatt ein unabhängiger Schritt zu sein. Erst nachdem das Modell und der Algorithmus festgelegt sind, kann man wirklich beurteilen, wie die Daten gereinigt, gefiltert und in welchen Fällen annotiert oder schwach annotiert werden müssen.

Mit anderen Worten, der Wert der Daten ist nicht statisch, sondern dynamisch an die Modellfähigkeit angepasst. Im Trainingsprozess müssen wir auch ständig die Verteilungsmerkmale und strukturellen Attribute der Daten verstehen und die Datenstrategie entsprechend anpassen, um die Gesamtleistung kontinuierlich zu verbessern.

Insbesondere im Video-Daten-Szenario werden die Schwierigkeiten noch deutlicher. Einerseits ist das Video-Datenvolumen größer und der Redundanzgrad höher. Wie man effizient die "nützlichen Informationen" auswählt, ist ein Schlüsselproblem.

Andererseits sind die zeitlichen Informationen und Handlungsinformationen in Videos nicht so natürlich strukturiert wie in Texten, was auch höhere Anforderungen an die Datenverarbeitung und -nutzung stellt.

Im Wesentlichen ist dies nicht nur ein Datenproblem, sondern auch ein Problem der Integration von "Daten - Modell - Algorithmus". Dies erfordert, dass das Team in der langfristigen Praxis ständig verbessert wird, und es stellt auch höhere Anforderungen an die Systemfähigkeit und die Ingenieurskunst des Teams für große Modelle.

F: Wie kann ein Modell in der Lage sein, "ausführbare Fähigkeiten" aus Videos zu lernen, wenn es keine Labels gibt?

Zhu Jun: Unser Kernansatz besteht darin, durch ein einheitliches Weltmodell-Framework theoretisch die beiden Fähigkeiten "Generierung" und "Handeln" zu verbinden.

In diesem Framework trainieren wir mit großen Mengen an unannotierten Video-Daten und bauen ein skalierbares allgemeines Basis-Modell auf. Das Modell versteht nicht nur passiv den Videoinhalt, sondern lernt durch die Analyse der zeitlichen Informationen und Verhaltensmuster schrittweise eine Fähigkeits-Schließung von "Wahrnehmung - Vorhersage - Entscheidung - Handlung" auf.

Und wir haben diese Fähigkeiten in verschiedenen Arten von Aufgaben vorläufig validiert. Beispielsweise:

CAPTCHA-Bearbeitungsaufgabe: Ein Roboterarm simuliert die menschliche Mausbedienung, um die Bildschirmerkennung und genaue Klicks zu realisieren.

Schachentscheidungsaufgabe: Dies erfordert die langfristige Planung und mehrschrittige Inferenz und erfordert die Zusammenarbeit von Wahrnehmung, Vorhersage und Entscheidung.

Manipulation von flexiblen Objekten: Bei komplexen und unregelmäßigen Objekten wird eine stabile Greifung realisiert.

In den Experimenten haben wir zwei Schlüsselphänomene beobachtet:

Erstens ist der Skalierungseffekt der Daten deutlich stärker. Im Vergleich zum traditionellen VLA-Ansatz wurde die Datennutzungseffizienz um Größenordnungen verbessert.

Zweitens ist die Fähigkeit zur Generalisierung über mehrere Aufgaben deutlich stärker. In einem einheitlichen Modell können wir effizient über 50 Aufgaben generalisieren. Mit der Zunahme der Anzahl der Aufgaben sinkt die Leistung nicht, sondern verbessert sich sogar. Im Vergleich dazu neigen traditionelle VLA-Modelle (z. B. PI0.5) dazu, bei zunehmender Anzahl der Aufgaben an Leistung einzubüßen. Dies zeigt auch indirekt, dass die Integration der Generierungsfähigkeit und der Handlungsfähigkeit in einem einheitlichen System möglicherweise einen neuen Entwicklungspfad darstellt.

F: Viele Video-Daten zeigen oft nur das Ergebnis, aber fehlen an einem vollständigen kausalen Prozess. In diesem Fall, wie kann das Modell vermeiden, nur die oberflächliche Korrelation zu lernen? Können Video-Daten wirklich die "kausale Erkenntnis" unterstützen?

Zhu Jun: Tatsächlich kann nicht jedes Video eine klare kausale Kette vollständig darstellen. Aber der Kernvorteil von Video-Daten liegt in ihrer Größe und Vielfalt.

Nehmen wir ein einfaches Handlungsbeispiel wie "Tasse greifen". In vielen Videos aus verschiedenen Quellen werden verschiedene Greifarten, unterschiedliche Umgebungen und verschiedene Einschränkungen bei der Handlung gezeigt.

Für ein großes Modell kann es aus dieser massiven und vielfältigen Verteilung allgemeingültige Handlungsmuster ableiten, anstatt sich auf einzelne, standardisierte Datenproben zu verlassen. Im Vergleich dazu sind die festen Sammlungsdaten oder Simulationsdaten zwar strukturierter, aber in Bezug auf die Abdeckung und Vielfalt begrenzt.

Daher verlassen wir uns nicht einfach auf einzelne Videos, um die kausale Beziehung zu lernen, sondern nutzen die Verteilungsinformationen in einer riesigen Datenmenge, um das Modell auf statistischer Ebene allmählich an eine stabilere "kausale Struktur" heranzuführen.

F: Wie kann der Anteil der "nützlichen Daten" bei der raschen Zunahme des Video-Datenvolumens weiter erhöht werden? Welche Methoden können wirklich den Wert von Videos für das Modelltraining verbessern?

Zhu Jun: Die Verbesserung der Effektivität von Video-Daten kann hauptsächlich in zwei Richtungen erfolgen.

Einerseits ist es die aktive Konstruktion von hochwertigen Daten. Beispielsweise durch die Aufzeichnung aus erster Person, die Einführung von strukturierten Annotationen oder schwach annotierten Informationen. Obwohl diese Art von Daten teurer ist, ist die Informationsdichte höher, und die Verbesserung der Modellfähigkeit ist direkter. Der Anteil wird in Zukunft allmählich steigen.

Andererseits ist es die vollständige Nutzung von allgemeinen Video-Daten. Im Internet hat sich bereits eine riesige Menge an Videos angesammelt, die das alltägliche Verhalten und die Funktionsweise der physischen Welt aufzeichnen. Diese Art von Daten hat natürliche Vorteile in Bezug auf die Größe und Vielfalt und kann als wichtiger Grundstein für das Modelltraining dienen.

Im Wesentlichen sind diese beiden Arten von Daten komplementär: Die eine verbessert die "Informationsdichte", die andere bietet "Größe und Abdeckung" und unterstützt gemeinsam die kontinuierliche Verbesserung der Modellfähigkeit.

F: Derzeit forscht die gesamte Branche nach dem Weltmodell, aber es scheint noch kein einheitliches technologisches Paradigma wie das "Transformer" zu geben. Wie beurteilen Sie die gegenwärtige Phase? Welche Schlüsselschwierigkeiten gibt es noch?

Zhu Jun: Wenn man den Kernpfad der Videoerzeugung betrachtet, hat sich die Architektur bereits allmählich verein

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Entschuldigung, Roboter können die Welt nicht nur durch das Sehen verstehen.

Im Folgenden ist die Zusammenfassung des Gesprächs mit Zhu Jun: