Hard-Kr exklusives Interview: WANG Zhongyuan, Direktor des Institute for Intelligent Computing - VLA wird nicht verschwinden, Weltmodelle sind die Zukunft

Die Beziehung zwischen Weltmodellen und verkörperter Intelligenz ist im Wesentlichen die Beziehung zwischen „Gehirn“ und „Körper“.

Autor | Qiu Xiaofen

Redakteur | Yuan Silai

In den letzten Monaten hat sich das "World Model" von einer akademischen Fachsprache schnell zu einem Schlüsselwort in der KI- und Robotikbranche entwickelt.

Hinter der Aufmerksamkeit der Branche steckt eine reale Sorge.

Einerseits hat die Embodied Intelligence in den letzten zwei Jahren ein schnelles Wachstum erlebt, aber es hat sich auch gezeigt, dass die aktuelle KI in der physischen Welt Defizite aufweist. Roboter können Objekte erkennen, aber verstehen nicht, dass "ein geschobenes Glas umfallen wird"; sie können Befehle verstehen, aber können nicht vorhersagen, "wie viel Kraft zum Öffnen eines Flaschenverschlusses benötigt wird". Das World Model versucht genau diese Lücke zu schließen und den Robotern zu lehren, die Gesetze und Kausalitäten der physischen Welt zu verstehen.

Das heißt, die Beziehung zwischen dem World Model und der Embodied Intelligence ist im Wesentlichen die Beziehung zwischen "Gehirn" und "Körper".

Andererseits muss das Large Model nach den Forschungen in der Large Language, Vision Model und Multimodalität in die nächste Phase übergehen, von der virtuellen in die reale Welt.

Allerdings haben die Menschen keine Antwort darauf, wie das World Model tatsächlich in die Praxis umgesetzt werden kann, wenn Kapital, Technologieexperten und Industrieressourcen darauf konzentriert sind.

Nach Ansicht von Wang Zhongyuan, dem Direktor des Beijing Academy of Artificial Intelligence (BAAI), wird die gegenwärtige globale Erforschung des World Models in vier völlig verschiedene Wege aufgeteilt -

Die erste Art ist das sprachzentrierte World Model, einschließlich VLM und VLA. Das Modell prognostiziert das nächste Wort im Textraum und lernt die Welt, die in Sprache beschrieben wird, aber es versteht nicht die dahinter liegenden physikalischen Folgen.

Die zweite Art ist das pixelzentrierte World Model, wie die Videogenerierungsmodelle wie Sora und Seedance. Sie lernen in der visuellen Welt Videos oder Bilder und lernen die Welt, die in Pixeln beschrieben wird.

Die dritte Art ist das 3D-Struktur-zentrierte World Model, einschließlich 3D-Rekonstruktion und dem World Labs Marble-Modell des Teams von Fei-Fei Li. Aber die Rekonstruktion des 3D-Raums durch das Modell bedeutet nicht, dass es die Welt versteht, und die geometrische Struktur repräsentiert auch nicht den physikalischen Zustand.

Die vierte Art ist das visuellen Repräsentation-zentrierte World Model, wie das JEPA-Serienmodell von Yann LeCun. Es prognostiziert die Kompression der visuellen Repräsentation, aber die Evolution der visuellen Einbettung ist nicht gleichbedeutend mit der Evolution der physikalischen Gesetze.

Wang Zhongyuan, Direktor des Beijing Academy of Artificial Intelligence (Bildquelle/Unternehmen)

Als eine gemeinnützige Forschungsinstitution ist das Beijing Academy of Artificial Intelligence auch eine führende Kraft in der Welt des World Models in China.

Der Unterschied ist, dass das BAAI derzeit versucht, eine fünfte Kategorie zu erschaffen - sprach- und visuell zentriert, integriert in eine einheitliche "latente Raumrepräsentation": Alle Modalitäten werden in denselben latenten Raum (latent space) komprimiert und dann von verschiedenen "Decodern" (Decoder) nach Bedarf in verschiedene Ausgabemorphologien zurückgewandelt.

Nehmen wir ein Beispiel: Dieser "latente Raum" ist wie ein "universelles Skriptpapier" für den Roboterhirn. Unabhängig davon, ob es sich um ein gesehenes Videobild oder einen gehörteten Textbefehl handelt, wird alles zuerst auf dem "Papier" zu einer "Geheimnotiz" komprimiert, die nur von der KI verstanden werden kann. Wenn es erforderlich ist, wird der Roboter basierend auf derselben Notiz die nächste Szene zeichnen, die Bewegung des Roboters darstellen oder die Position und die Kraft eines Objekts berechnen.

In den ersten Jahren der Entwicklung des World Models waren die Aktivitäten des BAAI in der KI wie eine aufeinanderfolgende "Serie", die Schritt für Schritt eine universelle Grundlage für die Übergang von der digitalen in die physische Welt aufbaute -

Von dem frühen "Wudao" Large Model hat das BAAI die Erzählung über Large Models in China von Null in die Öffentlichkeit gebracht. Dann hat es allmählich den Wettbewerbspunkt auf die native multimodale einheitliche Architektur (einschließlich Wujie·Emu3/Wujie·Emu3.5) gelenkt. Danach hat das BAAI klar gemacht, dass es in die "Next State Prediction (NSP)" übergehen will und diese Logik in die einsetzbaren Systeme von Wu·Physis und Wujie·RoboBrain Orca integriert hat.

In dieser Zeit haben auch die Kerngründer von mehreren führenden Unternehmen in der Branche wie Zhipu AI, Dark Side of the Moon, Mianbi Intelligence und Galaxy Universal, wie Tang Jie, Yang Zhilin, Liu Zhiyuan und Wang He, an dem BAAI an Forschungsarbeiten in diesem Bereich beteiligt gewesen.

Trotz der großen Beliebtheit des World Models behält Wang Zhongyuan eine bemerkenswerte Ruhe. Er meint, dass das World Model ungefähr in der Phase der Deep Learning um 2012 steht - zu der Zeit gab es schwere Dateninseln, die Wege waren noch nicht festgelegt, die Benchmarks waren noch in Konflikt, und der ChatGPT-Moment war noch nicht gekommen.

Nach seiner Ansicht liegt der nächste harte Kampf des World Models in der synthetischen Konkurrenz in mehreren Dimensionen.

Zunächst darf das Modell nicht nur Bilder erzeugen, die wirklich aussehen, aber nicht den realen physikalischen Gesetzen entsprechen, wie z. B. die Erzeugung eines "fliegenden Schweins". Es muss auch eine langfristige Konsistenz aufweisen und nicht nur ein Video von wenigen Sekunden, sondern einen kontinuierlichen Zustandswechsel darstellen.

Zweitens muss das World Model kausale logische Schlussfolgerungen ziehen und die Beziehung zwischen Handlungen und Ergebnissen verstehen. Beispielsweise muss es verstehen, was passiert, wenn ein befestigtes und ein unbefestigtes Glas gleichzeitig fallen. Schließlich muss das World Model als Basismodell in verschiedenen Szenarien eingesetzt werden und nicht nur für eine Demo oder eine einzelne Aufgabe dienen.

Im Bereich der Anwendungen wird nach seiner Ansicht der Wert des World Models in zwei großen Richtungen realisiert. Neben der Überwindung der Engpässe der Embodied Intelligence und der Dienstleistung für die Robotikbranche kann das World Model auch in der seriösen Industrie, der physikalischen Simulation und der wissenschaftlichen Forschung in realen physikalischen Szenarien weit verbreitet angewendet werden.

"Wir hoffen, dass das World Model in Zukunft ein echter Roboterhirn werden kann. Das World Model löst die Probleme, die das aktuelle VLA und VLM nicht lösen können, und bietet Generalisierungs-, Langzeit-, komplexe Aufgaben- und aktive Erkundungsfähigkeiten. Dies wird jedoch ein langfristiger Prozess sein und möglicherweise drei Jahre oder länger dauern." sagte Wang Zhongyuan.

Kürzlich hat Wang Zhongyuan mit Medien wie Yingke über seine Ansichten über das World Model und die Verbindung zwischen World Model und Embodied Intelligence gesprochen. Folgendes ist die Transkription des Interviews (leicht gekürzt):

Vier Wege des World Models

Yingke: Warum wird auf der diesjährigen BAAI Conference besonders über das "World Model" gesprochen? Was ist die Beziehung zwischen ihm und den früheren Large Model-Wegen?

Wang Zhongyuan: Wir haben das Konzept des World Models nicht plötzlich entwickelt. Schon auf der BAAI Conference 2024 haben wir die Entwicklungspfade der KI vorhergesagt: Nach dem Large Language Model wird es in die native einheitliche Multimodalität übergehen, dann in die Kombination von physischer Welt und Hardware, weiter in die Mikrowelt der AI for Science und schließlich in die physische AGI.

Die diesjährige BAAI Conference hat zwei Hauptthemen, eines ist das World Model und das andere ist der Agent. Der Agent ist derzeit sehr beliebt, insbesondere die AI Coding ist in eine Phase des starken Aufschwungs eingetreten; das World Model ist dagegen das Problem des nächsten Generation Basismodells, das die KI beim Übergang von der digitalen in die physische Welt unweigerlich zu bewältigen hat.

Yingke: Welche technischen Wege gibt es derzeit für das World Model?

Wang Zhongyuan: Zurzeit gibt es vier Hauptwege:

Der sprachzentrierte Weg (z. B. Gemini3): Er kann multimodale Daten wahrnehmen, über Sprache denken und den nächsten Zustand beschreiben und verfügt über Planungs- und Entscheidungsfähigkeiten.

Der pixelzentrierte Weg (z. B. Sora): Er eignet sich gut für die Videogenerierung, versteht aber keine physikalischen Kausalitäten;

Der 3D-Struktur-zentrierte Weg (z. B. das Marble-Modell von Fei-Fei Lis World Labs): Er zielt auf die Simulation der digitalen Welt wie Metaverse und Spiele;

Der visuellen Repräsentation-zentrierte Weg (z. B. die V-JEPA-Serie von Yann LeCun): Er prognostiziert die Kompression der visuellen Repräsentation, aber die Evolution der visuellen Einbettung ist nicht gleichbedeutend mit der Evolution der physikalischen Gesetze.

Yingke: In welchen Weg kann das World Model des BAAI eingeordnet werden?

Wang Zhongyuan: Wir neigen eher dazu, die Weltwissen im latenten Raum zu lernen, also die Latent Relation. Wir versuchen, das Weltwissen wirklich in den latenten Raum zu komprimieren und dann über verschiedene Decoder Sprache, Handlung und Vision auszugeben.

Das BAAI wählt die mögliche Integration der sprachzentrierten und der visuellen Repräsentation-zentrierten Kategorien. Der Grund ist einfach: Das World Model muss nicht nur die physische Welt "sehen", sondern auch "verstehen" und "entscheiden". Wenn ein Mensch beispielsweise ein halb volles Glas umstürzen sieht, wird sein Gehirn automatisch vorhersagen, "in welche Richtung das Wasser fließt und wie der Bodenbelag die Fließgeschwindigkeit beeinflusst". Diese Fähigkeit erfordert die tiefe Integration von visuellen Signalen und sprachlicher Inferenz, anstatt nur Bilder zu erzeugen.

Ich stimme auch mit Yann LeCuns Einschätzung über die "Einschränkungen des Large Language Models" überein, aber ich denke nicht, dass das Sprachmodell unwichtig ist. Sprache ist das Träger des menschlichen Wissens. Das Verwerfen der Sprache bedeutet, das von den Menschen angesammelte physikalische Allgemeinwissen zu verwerfen.

Yingke: Viele Unternehmen bezeichnen derzeit Videogenerierungsmodelle als World Model. Was halten Sie davon?

Wang Zhongyuan: Ich bin sehr klar darin, dass die Videogenerierung nicht gleichbedeutend mit dem World Model ist. Derzeit wird das Wort "World Model" weit verbreitet verwendet, was in hohem Maße darauf zurückzuführen ist, dass OpenAI bei der Veröffentlichung von Sora den Begriff "World Simulator" verwendet hat.

Der World Simulator ist zur Beschreibung der Videogenerierung relativ genau, aber das Videogenerierungsmodell selbst ist nicht gleichbedeutend mit dem World Model. Das derzeit sehr beliebte World Action Model, das Videos und Aktionen zusammenfügt, kann auch nicht vollständig das echte World Model repräsentieren.

Nach meiner Ansicht sollte das echte World Model ein Basismodell der nächsten Generation für die reale physische Welt sein. Es ist nicht einfach, ein scheinbar realistisches Video zu erzeugen, sondern es muss die Zustandsänderungen, die Handlungskausalitäten, die Langzeitkonsistenz und die Generalisierungsfähigkeit der realen physischen Welt verstehen.

Das Kernstück der Sprachmodell-Ära ist die Next Token Prediction, d. h. die Vorhersage des nächsten Tokens. Im Zeitalter des World Models sollte der Kern die Next Physical State Prediction sein, d. h. die Vorhersage des nächsten physikalischen Zustands.

Das Sprachmodell kann durch Prompt seine Fähigkeiten aktivieren, während das World Model durch State seine Fähigkeiten aktivieren muss. Das Sprachmodell ist eher passiv beobachtend, während das World Model aktiv interagieren muss. Das Sprachmodell kann unimodal oder multimodal sein, während das World Model auf alle Modalitäten ausgerichtet sein muss.

Yingke: Welche Fähigkeiten muss ein echte Weltbasismodell für die physische Welt haben?

Wang Zhongyuan: Ich denke, es braucht mindestens folgende Fähigkeiten.

Erstens muss es physikalisch korrekt sein. Die optische Brechung, die Schwerkraft, die Flüssigkeiten und die Bewegung der Objekte müssen den realen physikalischen Gesetzen entsprechen. Ein Videogenerierungsmodell kann möglicherweise eine Gruppe fliegender Schweine erzeugen, aber die physikalische Welt funktioniert nicht so. Wenn ein Roboter mit einem "Gehirn" ausgestattet ist, das nicht zwischen Realität und Illusion unterscheiden kann, könnte er sich möglicherweise für Iron Man halten, was zu erheblichen Risiken führen würde.

Zweitens muss es die Kausalität der Handlungen nachvollziehen können. Das Modell darf nicht nur die Bildänderungen kennen, sondern auch wissen, welche Ergebnisse eine Handlung hat. Wenn beispielsweise ein Mensch sieht, dass eine Flasche Wasser, die mit oder ohne Verschluss versehen ist, fast fällt, wird er natürlich verschiedene Ergebnisse vorhersagen. Das World Model muss diese Beziehung zwischen Handlung und Ergebnis lernen.

Drittens muss es eine Langzeitkonsistenz aufweisen. Viele Videogenerierungsmodelle können Videos von 5, 10 oder sogar 60 Sekunden erzeugen, aber das bedeutet nicht, dass sie wirklich die Zeit verstehen. Wenn man einer Flasche Wasser hinzufügt und neben der Flasche eine Uhr steht, und der Kamerablick weg- und wieder zurückbewegt wird, muss das Modell wissen, dass tatsächlich 10 oder 20 Sekunden vergangen sind, anstatt ein scheinbar plausibles Bild zu erzeugen.

Viertens muss es eine universelle Generalisierungsfähigkeit haben. Das Weltbasismodell muss in mehreren nachgelagerten Szenarien eingesetzt werden können, ähnlich wie das Large Language Model für viele Aufgaben verwendet werden kann. Es darf nicht nur ein Werkzeug für ein bestimmtes Szenario sein, sondern muss für verschiedene Aufgaben wie Embodied, physikalische Simulation und wissenschaftliche Vorhersage dienen können.

Das World Model könnte ein echter Roboterhirn werden

Yingke: Was ist das größte Problem der derzeitigen Embodied Intelligence?

Wang Zhongyuan: Ich denke, dass die Embodied Intelligence noch in einem sehr frühen Stadium ist. Die meisten der derzeitigen Embodied Modelle sind immer noch auf einzelne Szenarien beschränkt und passive Aufgabenausführungen. Sie können in bestimmten Fabriken, für bestimmte Aufgaben und mit bestimmten Daten arbeiten, wie z. B. das Greifen, Sortieren und Ablegen von Paketen. In solchen Szenarien können VLA oder einfachere Model

Dieser Artikel wurde ursprünglich von「邱晓芬」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

Hard-Kr exklusives Interview | WANG Zhongyuan, Direktor des Institute for Intelligent Computing: VLA wird nicht verschwinden, aber Weltmodelle sind die Zukunft

Vier Wege des World Models

Das World Model könnte ein echter Roboterhirn werden