StartseiteArtikel

Die Welt ist zu klein für die Weltmodelle.

品玩Global2025-12-04 17:24
Warum gibt es so viele Weltmodelle?

Die Weltmodelle sind so chaotisch geworden wie die Welt selbst.

OpenAI zeigt auf die von Sora generierten Videos und sagt, das sei ein "Welt-Simulator"; Yann LeCun zeigt auf Sora und sagt, es handle sich um Pixel-Illusionen, und ein echter Weltmodell sollte ein "abstrakter Gehirn, der die Zukunft vorhersagt" sein; Google DeepMind behauptet, Genie3 sei ein "interaktiver universeller Weltmodell"; und Fei-Fei Li meint, "räumliche Intelligenz" sei die richtige Lösung.

Die reale Welt ist einzigartig und objektiv, aber im Bereich der Künstlichen Intelligenz scheint jeder seinen eigenen "Weltmodell" zu schaffen.

Obwohl die Definitionen weit auseinanderliegen, sind diese herumstreitenden Experten sich in einer grundlegenden Einschätzung einig: Die großen Sprachmodelle werden irgendwann an ihre Grenzen stoßen, und Weltmodelle sind der unvermeidliche Weg zu AGI.

Nach GPT-3.5 hat es einen Parameter-Explosion bei den großen Sprachmodellen gegeben, während die Weltmodelle bereits vor der Konvergenz der technischen Wege eine Konzept-Inflation erfahren haben.

Der Weltmodell ist wie ein Korb, in den alles hineingeschoben werden kann

Die Verwirrung um den "Weltmodell" rührt daher, dass es sich um ein Ziel handelt, nämlich die Fähigkeit der KI, die Gesetze der Außenwelt zu verstehen und die Veränderungen der Welt vorherzusagen, anstatt um einen konkreten technischen Weg.

Zuerst war die Verwirrung bei der Definition.

Die Idee des Weltmodells geht auf die von dem Kognitionswissenschaftler Kenneth Craik im Jahr 1943 vorgeschlagene "Mentale Modell" zurück, bei der das Gehirn durch die Konstruktion eines Mikromodells der Außenwelt Vorhersagen trifft. Mit anderen Worten, wir haben in unserem Gehirn ein mentales Modell, das nicht nur die momentan wahrgenommenen Informationen verarbeiten kann, sondern auch vorhersagen kann, "wie sich die Welt verändern würde, wenn ich dies tue".

Obwohl diese Theorie bereits in den 1990er Jahren in die Verstärkungslernen eingeführt wurde, hat es das bahnbrechende Papier "Recurrent World Models Facilitate Policy Evolution", das von Jürgen Schmidhuber und anderen im Jahr 2018 veröffentlicht wurde, ihm erst in der modernen KI-Branche einen Namen gegeben. In diesem Papier wurde erstmals ein Rahmen für das neuronale Netzwerk-Weltmodell definiert. Damals war es noch eine konkrete Architektur, die aus einer visuellen Komponente (VAE), einer Gedächtnis-Komponente (RNN) und einem Controller bestand und in einfachen Rennspielen und zweidimensionalen Schießspielen trainiert wurde.

Nach sieben Jahren, mit dem Aufstieg der großen Sprachmodelle, hat die Sehnsucht nach allgemeiner Künstlicher Intelligenz diesen Begriff in den letzten zwei Jahren wie "Linienflächen" vermehren lassen.

Yann LeCun hat im Jahr 2022 das Konzept der "Autonomen Intelligenz" mit dem Weltmodell als Kern vorgeschlagen, das die Erfassung abstrakter Repräsentationen durch modulare Gestaltung und selbstüberwachtes Lernen betont, und im Jahr 2023 und 2024 die Vorhersagemodelle I-JEPA und V-JEPA vorgestellt.

Fei-Fei Li hat im Jahr 2024 das Konzept der "räumlichen Intelligenz" vorgeschlagen, das World Labs gegründet und das neue Modell Marble veröffentlicht. Sie vertritt die Ansicht, dass der Weltmodell die Fähigkeit zur Erzeugung einer physikalisch konsistenten interaktiven 3D-Umgebung haben muss. "Für mich ist räumliche Intelligenz die Fähigkeit, die tiefe räumliche Welt zu erschaffen, zu schließen, zu interagieren und zu verstehen, sei es in zwei, drei oder vier Dimensionen, einschließlich Dynamik und allem anderen."

Sogar der ehemalige Chefwissenschaftler von OpenAI, Ilya Sutskever, der von "Komprimierung als Intelligenz" spricht, meint im Grunde genommen, dass, wenn ein Modell den nächsten Token (ob Text oder Pixel) verlustfrei komprimieren und vorhersagen kann, es intern eine Abbildung der Welt aufgebaut hat.

Ein abstraktes Konzept hat noch mehr abstrakte Konzepte hervorgebracht.

Wenn man die Definitionstreitereien beiseite lässt, gibt es derzeit in Bezug auf die technische Richtung zwei Hauptrichtungen des Weltmodells, die zwei völlig verschiedenen Weltanschauungen entsprechen: die Repräsentationsrichtung (Representation) und die Generationsrichtung (Generation).

Yann LeCun gehört zur "Repräsentationsrichtung", einer minimalistischen Richtung, die keine Bilder erzeugt.

Analog zum mentalen Modell im menschlichen Gehirn ist unsere Vorhersage und Handlung in Bezug auf die Welt oft eine Intuition, keine physikalischen Formeln oder konkreten Bilder. Basierend auf diesem Ansatz ist LeCuns Weltmodell ein "Gehirn", das tief im System verborgen ist und nur im repräsentierten latenten Raum operiert und "abstrakte Zustände" vorhersagt.

In einem Tweet hat LeCun klar definiert, dass ein Weltmodell vier Variablen gleichzeitig als Eingabe benötigt: die Schätzung des vorherigen Weltzustands s(t), die momentane Beobachtung x(t), die momentane Aktion a(t) und eine latente Variable z(t), um den nächsten Weltzustand s(t+1) vorherzusagen.

Diese Definition hat zwei Schlüsselpunkte: Erstens sagt der Weltmodell den "Zustand" des nächsten Moments voraus, nicht das Bild; zweitens kann er kausale Schlussfolgerungen für kontinuierliche Handlungsinteraktionen ziehen.

Wenn beispielsweise ein Auto herankommt, zeichnet es sich nicht die Nummernschild und die Reflexionen in seinem Kopf, sondern berechnet nur den Zustand "Hindernis nähert sich". Dieses Modell ist nicht für Menschen gedacht, sondern für Maschinen, um Entscheidungen zu treffen. Es strebt eine logische kausale Ableitung an, nicht an visuelle Realität. Die von LeCun vorgeschlagenen I-JEPA (Joint Embedding Prediction Architecture) und V-JEPA verzichten auf die Methode der generativen KI, "jedes Pixel vorherzusagen", da die reale Welt voller unprediktierbarer Rauschen (z.B. Blatttexturen) ist, und die KI nicht ihre Rechenleistung verschwenden sollte, um diese Details zu generieren.

Die zweite Hauptrichtung ist derzeit die lauteste "Generationsrichtung". Der Kernunterschied zu Yann LeCun besteht darin, dass sie die visuelle Welt rekonstruieren und simulieren möchte.

Diese Richtung zitiert oft das Zitat des Physikers Richard Feynman: "What I cannot create, I do not understand. - Wenn ich es nicht erschaffen kann, verstehe ich es nicht." Das heißt, wenn ein Modell die richtige Welt generieren kann, beweist es, dass es die physikalischen Gesetze der Welt versteht.

Anfang 2024 hat OpenAI bei der Vorstellung von Sora erwähnt, dass es ein Welt-Simulator sei. OpenAI meint, dass, wenn die Datenmenge groß genug ist, das Modell durch die Vorhersage des nächsten Frames die physikalischen Gesetze verstehen kann. Durch das Lernen von Milliarden von Videosegmenten hat es die Wahrscheinlichkeitsverteilungen von "Beine wechseln beim Gehen" und "Glasbecher zerbrechen beim Fallen" gelernt.

Es gibt viele Kontroversen über Sora als Weltmodell. Der direkteste Punkt ist, dass es LeCuns Forderung nach Kausalität zwischen Aktion und Weltzustand nicht erfüllen kann. Wenn das Modell nur Videos wie einen Film abspielen kann und nicht auf Fragen wie "Wie fliegt der Ball, wenn ich ihn trete?" antworten kann, hat es möglicherweise nur die "Wahrscheinlichkeitsverteilung der Flugbahn des Balls" gelernt, nicht aber die "Mechanikgesetze" verstanden.

Was wäre, wenn die Videoerzeugung in der Lage wäre, den nächsten Frame in Echtzeit basierend auf der Eingabe der Benutzeraktion vorherzusagen?

Daraus hat sich eine weiterentwickelte Form der Generationsrichtung ergeben: das interaktive generative Video (Interactive Generative Video), wie beispielsweise Genie3.

Im Gegensatz zu Sora zeichnet sich das IGV durch Echtzeitfähigkeit und Interaktivität aus, d.h. es gibt Aktionen (Action). Google DeepMind hat Genie 3 als "universelles Weltmodell" positioniert. Es ermöglicht es Benutzern, in die Szene einzutreten und mit ihr zu interagieren und unterstützt die Echtzeitgenerierung von Bildern mit einer Auflösung von 720p und einer Bildrate von 24 fps. Benutzer können sich frei bewegen, z.B. in erster Person fahren oder komplexe Landschaften erkunden. Dies bedeutet, dass das Modell nicht nur das Bild, sondern auch die kausale Beziehung zwischen Aktion und Umweltänderung versteht, obwohl die Aktionen derzeit auf die Richtungstasten beschränkt sind.

Schließlich ist es die von Fei-Fei Li vertretene "3D-räumliche Intelligenz (Spatial Intelligence)", deren neuestes Beispiel das von World Labs veröffentlichte Marble ist.

Während die ersten beiden Richtungen sich mit Videoströmen befassen, versucht Marble, eine dauerhafte, herunterladbare 3D-Umgebung von Grund auf aufzubauen.

Die technische Grundlage dieser Richtung ist eher der "3D-Gaussian Splatting". Es verzichtet auf die traditionelle Gittermodellierung und repräsentiert die Welt als Tausende von farbigen, verschwommenen kleinen Punkten (Gausskörpern), die im Raum schweben. Durch die Aggregation dieser Partikel kann das Modell beeindruckende dreidimensionale Bilder rendern und es Benutzern ermöglichen, über Prompting zu generieren und mit einem integrierten Editor frei zu gestalten und es mit einem Klick in Engines wie Unity zu exportieren.

Obwohl Marble derzeit noch weit von der von Fei-Fei Li erwähnten räumlichen Intelligenz entfernt ist, zeigt sich, dass sie der Meinung ist, dass der erste Schritt zur Erreichung der räumlichen Intelligenz die Schaffung eines hochpräzisen, physikalisch genauen 3D-Raums ist. Zusammenfassend lässt sich sagen, dass Marble im Gegensatz zu Sora eine 3D-Welt erzeugt, die den physikalischen Gesetzen entspricht, und im Gegensatz zu Genie3 keine Echtzeit-Welt erzeugt, aber eine höhere Präzision und Wiedergabetreue aufweist.

Die Ergebnisse dieser Richtungen haben jedoch noch nicht die erwartete Form des Weltmodells erreicht. Sie streiten sich heftig miteinander, und jeder hat seine Anhänger, was dazu führt, dass die Definition des "Weltmodells" immer weiter ausgedehnt wird.

Heute sind alle Projekte, die sich mit Umweltverständnis und -simulation befassen, ob es sich um strukturierte vertikale Bereiche wie körperliche Intelligenz, autonomes Fahren, Spielvideos handelt, oder um Technologien wie generative Videos, multimodale Modelle, Videoverständnis, 3D-Modelle, oder sogar um DeepSeek OCR, das visuelle Informationen komprimiert, entweder aktiv oder passiv mit dem Weltmodell verbunden.

Der Weltmodell wird immer mehr wie ein Korb, in den alles hineingeschoben werden kann.

Es gibt Blasen und auch Ambitionen. Der Weltmodell ist eine "anti-LLM-Zentrierte" Erzählung

Wenn es nur um die verschiedenen technischen Wege ginge, würde dies nicht erklären, warum der "Weltmodell" in diesem Jahr so plötzlich aufgestiegen ist. Hinter der Hype verwickeln sich die Angst der Kapitalgeber, die technischen Engpässe und die Sehnsucht nach AGI.

Wir müssen zuerst zugeben, dass es hier einen großen Blasenanteil gibt.

Im Venture-Capital-Sektor ist die Erzählung oft wertvoller als der Code. Wenn das Wettbewerbsumfeld der "großen Sprachmodelle" bereits festgelegt ist und OpenAI, Google usw. die Welt der Basis-Modelle aufgeteilt haben, brauchen Nachzügler und Entwickler vertikaler Anwendungen dringend eine neue Geschichte, um die Investoren zu überzeugen.

Ein "Video-Generierungsmodell" klingt wie eine Werkzeugsoftware mit begrenzten Chancen; aber sobald es in "Weltmodell" umbenannt wird, steigt es sofort auf die Ebene der AGI.

Dies ist auch ein interessantes Phänomen in der heutigen KI-Zeit: Forscher gründen in großem Maßstab Unternehmen, und Forschung und Geschäft überlappen sich.

In der reinen Forschungswelt müssen alle Innovationen auf soliden Axiomen basieren. Wenn Sie ein Problem lösen möchten (z.B. AGI erreichen), müssen Sie zunächst das Problem präzise definieren. Wenn jedoch ein Lab in ein Unternehmen verwandelt wird und akademische Großväter zu CEOs werden, wird diese ursprünglich in Fachzeitschriften geführte "Definitionstreiterei" in die Geschäftswelt getragen.

In der Forschung können verschiedene Richtungen nebeneinander existieren; aber in einem Startup sind die Ressourcen begrenzt. Wenn die Definition von A richtig ist, können die Milliarden von Investitionen von Unternehmen B ins Wasser fallen. Ein Unterschied in der Definition entspricht einer Investitionsrichtung von Milliarden in Rechenleistung, der Bevorratung der gesamten Lieferkette und der Neubewertung der Investoren.

Wenn man die Definitionstreitereien und die Hype beiseite lässt, scheint der Aufstieg des Weltmodells auch wie eine "anti-LLM-Zentrierte" Bewegung zu sein.

Die gesamte KI-Branche hat eine kollektive technische Angst vor den großen Sprachmodellen (LLM). Diese Angst rührt von den inhärenten Mängeln der LLM her: Sie sind "entkörperlicht". Die LLM werden in einem reinen Textsymbol-System trainiert. Sie wissen, dass das Wort "Apfel" oft mit "rot" und "süß" zusammen auftritt, aber sie haben nie einen echten Apfel "gesehen" und können die Erdbeschleunigung eines fallenden Apfels nicht verstehen. Darüber hinaus nimmt der Grenznutzen der KI mit zunehmender Datenmenge ab.

Ob es sich um die Betonung von Ilya Sutskever nach seinem Austritt aus OpenAI um "über die großen Modelle hinaus" handelt, oder um das von Fei-Fei Li vorgeschlagene Konzept der "räumlichen Intelligenz", der Kernpunkt besteht darin, dass die KI von der Lernweise "was Menschen sagen" zur Lernweise "was in der Welt passiert" wechseln muss. Die Branche wandelt sich von der re