Der Streit zwischen Fei-Fei Li und LeCun über Weltmodelle
Der Weg zur Künstlichen Allgemeinen Intelligenz (AGI) hat schließlich auf dem Schlachtfeld der Weltmodelle zusammengestoßen.
Fei-Fei Li hat ihr erstes kommerzielles Weltmodell Marble veröffentlicht;
Fast zur gleichen Zeit hat Yann LeCun Meta verlassen und vorhaben, sein eigenes Weltmodell-Unternehmen zu gründen;
Bevor das passierte, hat das von Google entwickelte Weltmodell Genie 3 auch eine Aufregung in der Branche ausgelöst.
Drei Prominenten in der KI-Branche setzen zwar alle auf Weltmodelle, doch dies bedeutet drei völlig verschiedene Technologieansätze –
Der Wettlauf um die Weltmodelle
Kaum war Fei-Fei Lis auf Raumintelligenz hinweisender Artikel von zehntausend Wörtern veröffentlicht, hat ihre Startup-World Labs eilig ihr erstes kommerzielles Weltmodell Marble vorgestellt.
Die Branche hält Marble im Allgemeinen für kommerziell erfolgversprechend, weil es dauerhafte und herunterladbare 3D-Umgebungen erzeugt.
Das Team erklärt, dass diese Methode Probleme wie Szenenverzerrungen und Inkonsistenzen in den Details deutlich verringert und dass die erzeugten Welten auch als Gaußsche Punkte, Mesh-Gitter oder sogar direkt als Video exportiert werden können.
Darüber hinaus verfügt Marble über einen eingebauten, nativen KI-Welteditor namens Chisel, mit dem Benutzer mit nur einem Hinweis die Welt nach ihren Vorstellungen frei gestalten können.
Für Entwickler von VR-Anwendungen oder Spielen ist die Kette „ein Hinweis → direkt eine 3D-Welt erzeugen → mit einem Klick nach Unity exportieren“ sehr hilfreich.
Ein Maschinenlerningenieur auf Hacker News hat jedoch darauf hingewiesen, dass Marble eher wie ein einfaches 3D-Renderingmodell als wie ein sogenanntes Weltmodell aussieht.
Is das nicht einfach ein Gauß-Splat-Modell? Ich arbeite schon so lange in der KI-Branche, und ich verstehe immer noch nicht, was das „Welt“ in „Weltmodell“ eigentlich bedeutet.
Ein Reddit-Nutzer war noch direkter:
Es ist sicherlich cool, Bilder in 3D-Umgebungen zu verwandeln, indem man Gaußsche Streuung, Tiefeninformationen und Bildinpainting verwendet. Aber das ist einfach eine 3D-Gaußsche Generierungspipeline, keine Roboterhirn.
Hierbei bezieht sich die Gaußsche Streuung auf eine der beliebtesten neuen Technologien in der 3D-Modellierung der letzten Jahre.
Es stellt eine Szene als Tausende von farbigen, verschwommenen kleinen Punkten (also Gaußschen Punkten) dar, die im Raum schweben, und „spritzt“ diese Punkte auf den Bildschirm, sodass sie sich natürlich zu einem Bild verschmelzen.
Man kann sich das so vorstellen: Ein Gaußscher Punkt ist wie eine kleine, halbtransparente, leuchtende Blase mit weichen Rändern, die im dreidimensionalen Raum schwebt.
Natürlich kann eine einzelne Blase nicht viel formen, aber wenn Tausende solcher Blasen zusammenkommen und aus verschiedenen Winkeln gerendert werden, können sie ein wunderschönes dreidimensionales Bild bilden.
Dabei entfällt der komplizierte Modellierungsprozess wie bei der traditionellen Photogrammetrie. Obwohl man etwas an Genauigkeit einbüßt, ist die Methode sehr schnell und einfacher zu bedienen.
Marble folgt genau diesem Ansatz.
Dies bedeutet jedoch auch, dass Marble möglicherweise nicht dasjenige „Weltmodell“ ist, das man sich für die Roboterausbildung vorstellt.
Marble konstruiert zwar eine vollständige Welt, aber was wir tatsächlich sehen, ist nur eine Ansicht, die vom Renderer direkt in Pixel umgewandelt werden kann.
Mit anderen Worten, es erfasst, „wie die Oberfläche aussieht“, ohne die physikalischen Gesetze, die erklären, „warum die Welt so funktioniert“, einzubauen.
Das reicht für Menschen völlig aus, aber für Roboter ist es nicht die visuellen Informationen, sondern die dahinter liegende kausale Struktur, die wichtig ist –
Zum Beispiel ist es für Menschen selbstverständlich, dass ein Ball, der auf einer Rampe platziert wird, hinunterrollt;
aber für einen Roboter, um eine ähnliche Einschätzung zu treffen, benötigt man Informationen über Masse, Reibung, Geschwindigkeit … und diese Informationen gibt es in Marble überhaupt nicht.
Vielleicht ist es auch der Grund, dass auf Marbles eigenem Blog zwar immer wieder von „Weltmodellen“ und „Export von Gaußschen Streuungskörpern, Gittern und Videos“ die Rede ist, aber fast überhaupt nicht von Robotern.
Im Hinblick auf die Kommerzialisierung hat Marble jedoch eindeutig Vorteile.
Im Vergleich zu den von der KI-Community heiß diskutierten Weltmodellen, die zur Embodied Intelligence führen könnten, ist Marble kein ferner Traum, sondern ein praktisches Werkzeug, das sich sofort in den Arbeitsablauf von Spielentwicklern einfügen lässt.
Doch lässt das einen etwas traurig werden: Ist der „Weltmodell“-Weg zur AGI nur ein Hype?
Natürlich nicht.
Es gibt tatsächlich Weltmodelle, die mit Robotern interagieren können, wie etwa LeCuns JEPA.
LeCuns Vorstellung von einem „Weltmodell“ basiert nicht auf 3D-Grafik, sondern auf Steuerungstheorie und Kognitionswissenschaft.
Es muss keine schönen Bilder ausgeben, denn man kann dieses Weltmodell überhaupt nicht „sehen“.
Die Aufgabe dieser Art von Weltmodellen besteht nicht darin, wunderschöne Pixel zu rendern, sondern es zu ermöglichen, dass Roboter einige Schritte vorausdenken und lernen, die Veränderungen der Welt vor der Aktion vorherzusagen.
JEPA folgt genau diesem Ansatz –
LeCun ist der Meinung, dass für KI nur die abstrakte Repräsentation in der Mitte wichtig ist. Das Modell muss keine Rechenleistung verschwenden, um Pixel zu generieren, sondern sich darauf konzentrieren, die Weltzustände zu erfassen, die für die KI-Entscheidungen wichtig sind.
Obwohl diese Art von Modellen keine so aufwendigen 3D-Bilder wie Marble erzeugen kann und daher nicht so „aufregend“ wirkt, ist es eher wie das Training des „Gehirns“ eines Roboters.
Sein Vorteil liegt in einem tieferen Verständnis der Welt, weshalb es sich besser als Trainingsumgebung für Roboter eignet.
Im Vergleich dazu gehen die Ansätze von Fei-Fei Li und LeCun bei den „Weltmodellen“ fast in entgegengesetzte Richtungen –
Die eine entwickelt einen Front-End-Asset-Generator; die andere ist eher ein Back-End-Vorhersagesystem.
Zwischen diesen beiden Kämpfern steht noch ein Technologiereich – Google.
Im August dieses Jahres hat Google DeepMind ein neues Weltmodell namens Genie 3 vorgestellt.
Mit nur einem Prompt kann das Modell eine interaktive Video-Umgebung erzeugen, in der Benutzer mehrere Minuten lang frei erkunden können.
Am beeindruckendsten ist, dass Genie 3 erstmals in diesem Typ von Modellen das Problem der Langzeitkonsistenz gelöst hat – es tritt nicht mehr der Fall auf, dass „ein ganzes Gebäude verschwindet, wenn man sich umdreht“.
Außerdem unterstützt es das Auslösen von Weltereignissen wie „Es fängt an zu regnen“ oder „Es wird dunkel“, und der gesamte Prozess ist wie ein Computerspiel, das von einem Modell statt von einer herkömmlichen Engine angetrieben wird.
Genie ist eher wie ein „Weltmodell-basierter Videogenerator“.
Obwohl Genie 3 die „Welt in Bewegung“ bringt, basiert sein Kern auf Video-Logik, nicht auf der physikalischen und kausalen Logik wie bei JEPA.
Das heißt, es kann zwar dynamische Bilder erzeugen, aber es versteht nicht vollständig die physikalischen Gesetze hinter diesen Bildern.
Es kann immer noch für die Roboterausbildung verwendet werden, aber es geht nicht so direkt auf die Wurzeln wie JEPA.
Zugleich ist die Bildqualität und die Auflösung begrenzt und kann nicht mit den hochpräzisen, exportierbaren 3D-Assets von Marble mithalten.
Zusammenfassend lässt sich sagen, dass die drei „Weltmodelle“ zwar alle die „Welt“ beschreiben, aber ihre Herangehensweisen völlig unterschiedlich sind und daher jeweils ihre Stärken haben –
Marble rendert, „wie die Welt aussieht“, Genie 3 zeigt, „wie die Welt sich verändert“, und JEPA erforscht, „was die Struktur der Welt ist“.
Fast alle „Weltmodelle“ auf dem Markt lassen sich grob in diese drei Paradigmen einordnen:
Die Weltmodell-Pyramide
Erstes Paradigma: Weltmodell als Schnittstelle
Repräsentiert durch Marble, ermöglicht es Menschen, aus Texten oder zweidimensionalen Materialien direkt bearbeitbare und teilbare dreidimensionale Umgebungen zu generieren.
In diesem Modell ist die „Welt“ der Raum, der auf einem VR-Brille, einem Monitor oder einem Computerbildschirm dargestellt wird und in dem Menschen sehen und sich bewegen können.
Zweites Paradigma: Weltmodell als Simulator
Repräsentiert durch Genie 3, kann diese Art von Modellen kontinuierliche, steuerbare videoartige Welten erzeugen, in denen Agenten wiederholt versuchen, scheitern und erneut versuchen können.
Agenten wie SIMA 2 können diese Welten als „virtuelle Trainingsumgebung“ nutzen.
Drittes Paradigma: Weltmodell als kognitives Rahmenwerk
Repräsentiert durch JEPA, ist dies eine hochgradig abstrakte Form, ohne Bilder, die wie bei den ersten beiden Paradigmen für Menschen anzusehen wären.
Hier liegt der Schwerpunkt nicht auf dem Rendern. Die „Welt“ wird in Form von latenten Variablen und Zustandsübergangsfunktionen dargestellt und kann als perfekte Trainingsumgebung für Roboter angesehen werden.
Nach Meinung des Forschers Hao Zhao vom Zhipu Institute lässt sich eigentlich ein „Weltmodell-Pyramide“ aus diesen drei Paradigmen zusammensetzen –
Von unten nach oben sind es Fei-Fei Li, Genie 3 und LeCun.
Wenn man von unten auf diese Pyramide schaut:
Je höher man geht, desto abstrakter wird das Modell und desto näher kommt es dem Denken der KI, weshalb es sich besser für die Roboterausbildung und -inferenz eignet;
Je tiefer man geht, desto realer ist das Modell für Menschen in Bezug auf das Aussehen, die Interaktion und die Visualisierung, aber desto schwieriger ist es für Roboter zu verstehen.
Referenzlinks:
[1]https://entropytown.com/articles/2025-11-13-world-model-lecun-feifei-li/
[2]https://mp.weixin.qq.com/s/D7G3S_AIfzQfITgqXIKQAg
Dieser Artikel stammt aus dem WeChat-Account „QbitAI“, geschrieben von Jay und lizenziert von 36Kr.