Fünf große Verbände "belagern" das Large Language Model

Zwei Milliarden US-Dollar strömen in Weltmodelle, und der nächste Krieg im Bereich KI beginnt.

Yann LeCuns neues Unternehmen AMI hat eine Finanzierung in Höhe von 1,03 Milliarden US-Dollar erhalten und damit einen Rekord für die Saatstufe europäischer KI-Unternehmen aufgestellt. Nur einige Wochen vor der Finanzierung von AMI hat auch World Labs von Fei-Fei Li eine Finanzierung in Höhe von 1 Milliarde US-Dollar angekündigt.

Beide Unternehmen bewegen sich auf demselben Gebiet: Weltmodelle.

Yann LeCun hat einmal gesagt: „Große Sprachmodelle sind ein Sackgasse auf dem Weg zur Superintelligenz.“ Auf den ersten Blick leugnet dies den Wert von großen Sprachmodellen, doch die Bedingung ist die Realisierung von AGI. Bei genauerer Betrachtung gibt es darin durchaus etwas zu begründen.

Man kann es so einfach verstehen: ChatGPT kann Code schreiben und Aufgaben lösen, aber es versteht nicht die grundlegenden Gesetze der physischen Welt. Wenn man es bittet, „ein Apfel fällt zu Boden“ zu beschreiben, kann es es vortrefflich erklären. Aber wenn man es fragt, warum der Apfel fällt, wiederholt es im Grunde nur auswendig gelerntes Wissen und versteht möglicherweise nicht wirklich die Schwerkraft.

Die Wurzel des Problems liegt darin, dass die Trainingsdaten von großen Sprachmodellen Internettexte sind, während die reale Welt dreidimensional, kontinuierlich und voller physikalischer Gesetze ist.

Darum wird das Weltmodell zur nächsten Zielrichtung für die Forschungseliten.

Allerdings spricht jeder von Weltmodellen, aber es gibt keine Einigkeit über die Bedeutung dieser Begriffe. Es gibt Ansätze zur Videovorhersage, die Erstellung von 3D-Szenen, die Einrichtung von Simulationsplattformen und auch Ansätze, die direkt aus der Neurowissenschaft ausgehen …

Der Forschungsingenieur von Meta, Zhuokai Zhao, hat auf seinem X-Konto seine fünf „Schulen“ des Weltmodells geteilt.

Was sind diese fünf Schulen? Dieser Artikel basiert auf Zhaos Tweets und erweitert die Informationen unter Bezugnahme auf verschiedene Quellen. Wir hoffen, dass er für Sie, die an Weltmodellen interessiert sind, hilfreich ist.

JEPA-Schule: Yann LeCuns „Abstraktionsphilosophie“

JEPA steht für Joint-Embedding Predictive Architecture (Verbundene Einbettungs-Vorhersagearchitektur). Es ist eine neue KI-Architektur, die von Yann LeCun und anderen vorgeschlagen wurde.

Einfach ausgedrückt, liegt der Kerngedanke von JEPA darin, dass die KI wie ein Mensch die Funktionsweise der Welt durch „Beobachtung“ lernt, anstatt Pixel oder Wörter auswendig zu lernen: Die KI muss nicht die Position jedes Blattes merken, sondern nur wissen, dass der Wind Blätter fallen lässt.

Nach Yann LeCuns Ansicht ist ein Modell wie Sora im Wesentlichen darauf ausgerichtet, „das nächste Bildpixel für Pixel vorherzusagen“. Er meint, dass dies physikalisch unmöglich sei, denn in einer Welt voller Zufall kann man nicht die Flugbahn jedes einzelnen Blattes genau vorhersagen.

Die Lösung von JEPA besteht darin, anstatt Pixel vorherzusagen, in einem abstrakten „Repräsentationsraum“ Vorhersagen zu treffen.

Konkret wird zunächst ein Encoder verwendet, um Videos in eine abstrakte mathematische Darstellung umzuwandeln. Dann werden in diesem Raum (latent space) Vorhersagen darüber getroffen, „was passieren wird“. Beispielsweise wird vorhergesagt, dass „ein Ball von einem Tisch rollt“, ein Ergebnis, das eher „langfristig“ und in Übereinstimmung mit physikalischen Gesetzen ist, anstatt ständig die einzelnen Bilder des rollenden Balls vorherzusagen.

V-JEPA 2 ist derzeit das repräsentative Modell dieses Ansatzes. Das Modell hat 1,2 Milliarden Parameter und wurde auf der Grundlage von 1 Million Stunden unmarkierten Videos vortrainiert. Am erstaunlichsten ist, dass es mit nur 62 Stunden Roboterdaten nullsample-Planung von Aktionen durchführen kann. Bei der Bearbeitung von unbekannten Objekten in einer unbekannten Umgebung kann die Erfolgsrate 65 - 80 % erreichen.

Im Vergleich zu traditionellen Methoden des Roboternlernens, die möglicherweise Tausende von Stunden Demonstrationsdaten benötigen, reduziert V-JEPA 2 den Datenbedarf extrem.

Yann LeCuns eigene Worte sind: Wenn die Repräsentation gut genug ist, muss man nicht für jede Aufgabe von Grund auf trainieren.

Allerdings muss auch dieser Turing-Preisträger und Forscher nach der Gründung des Unternehmens AMI vor der Realität kapitulieren. Er sagte, dass die kommerziellen Produkte von AMI vielleicht erst in einigen Jahren erscheinen würden.

Dies ist eine langfristige Investition, aber das Kapital ist bereit zu wetten. AMI hat bereits die erste Finanzierung in Höhe von über 1 Milliarde US-Dollar erhalten, und die Investoren umfassen fast alle bekannten Branchen- und Querbranchen-Größen.

Raumintelligenz-Schule: Fei-Fei Lis „Architekt“-Ansatz

Wenn JEPA sich auf die „Zeitvorhersage“ konzentriert, hat World Labs, gegründet von der KI-Forschungsexpertin Fei-Fei Li, sich auf eine andere Dimension konzentriert: die „Raumrekonstruktion“.

Der Unterschied zwischen diesen beiden Ansätzen beginnt bereits auf der untersten logischen Ebene.

JEPA geht davon aus, dass der Kern der Intelligenz die Prädiktion von „was als Nächstes passieren wird“ auf abstrakter Ebene ist. Daher ist es nicht an pixelgenauen Details interessiert, sondern strebt eine effiziente kausale Inferenz an.

Fei-Fei Li geht von einem anderen Ansatz aus. Sie meint, dass eine echte Intelligenz ein explizites Verständnis der dreidimensionalen Welt erfordert, einschließlich der geometrischen Struktur, der Tiefenbeziehungen und der relativen Positionen zwischen Objekten.

Mit anderen Worten: JEPA möchte der KI beibringen, das Gesetz „ein Ball rollt von einem Tisch“ zu verstehen, während World Labs der KI beibringen möchte, zu verstehen, „wie hoch der Tisch ist, wo sich der Ball auf dem Tisch befindet und wie weit der Boden vom Tisch entfernt ist“.

Das eine bezieht sich auf die logische Kette von Ereignissen, das andere auf die physikalische Struktur des Raums.

Dieser Unterschied bestimmt direkt die Produktform. World Labs hat im November 2025 sein erstes Produkt, Marble, veröffentlicht. Wenn man eine Textbeschreibung, ein Foto, ein Video oder sogar eine grobe 3D-Skizze eingibt, gibt Marble nicht ein Video aus, sondern eine bearbeitbare, navigierbare und exportierbare 3D-Welt.

Sie können in dieser Welt die Ansicht drehen, Objekte bewegen, die Beleuchtungsbedingungen ändern und das Ergebnis als Gaußsche Spritzer (Gaussian Splat), Dreiecksnetz (mesh) oder Videoformat exportieren und direkt in Unreal Engine oder Unity verwenden.

Hier gibt es noch ein leicht zu übersehendes technisches Detail: Viele Videogenerierungsmodelle können schöne Bilder erstellen, aber im Grunde erzählen sie Bilder für Bilder eine Geschichte, und es gibt keine einheitliche 3D-Struktur, die die einzelnen Bilder miteinander verbindet.

Das von Marble erstellte 3D-Szenario hat jedoch „Raumkonsistenz“. Es wird eine reale Raumdarstellung im Hintergrund aufrechterhalten, sodass die Welt beim Zurückkehren dieselbe bleibt.

Das Team von World Labs ist ebenfalls bemerkenswert: Der Mitbegründer Ben Mildenhall ist der Erfinder von NeRF (Neural Radiance Fields), der die kognitive Vorstellung der 3D-Rekonstruktion in der Computervision neu definiert hat. Der andere Mitbegründer, Christoph Lassner, ist ein Experte für 3D-Grafik.

Die Wissensstruktur dieses Teams hat dazu geführt, dass World Labs von Anfang an einen „expliziten 3D“-Ansatz verfolgt, anstatt die dreidimensionale Beziehung aus 2D-Videos „hinterzuhalten“.

Im Februar 2026 hat World Labs eine Finanzierung in Höhe von 1 Milliarde US-Dollar abgeschlossen. Die Investoren umfassen NVIDIA, AMD und Autodesk.

Das zuvor erwähnte Produkt Marble ist auch für normale Benutzer und kommerzielle Szenarien verfügbar und wird von Filmstudios und Spielentwicklern verwendet.

Allerdings hat Marble derzeit auch deutliche Einschränkungen. Die generierte 3D-Welt beginnt nach einigen Schritten mit visuellen Verzerrungen, sogenannten „Halluzinationen“.

Dies steht im Gegensatz zu dem, was der JEPA-Ansatz anstrebt, nämlich das „Verständnis physikalischer Gesetze“: World Labs ist gut darin, die „Aussehen“ des Raums wiederherzustellen, aber das Verständnis von „was in diesem Raum passieren wird“ ist noch relativ schwach.

Fei-Fei Li hat selbst zugegeben, dass Marble nur der erste Schritt ist. Sie definiert das endgültige Ziel als „Raumintelligenz“, was bedeutet, dass die KI nicht nur die Struktur einer Szene verstehen kann, sondern auch darin schließen, planen und interagieren kann. Der Weg ist noch lang, aber die Richtung ist klar: Beginnend mit der expliziten Modellierung des dreidimensionalen Raums wird schrittweise das Verständnis von Physik und Kausalität hinzugefügt.

Lernende Simulations-Schule: DeepMinds „Traumgestalter“

Genie 3 von DeepMind ist möglicherweise der Weltmodellansatz, der derzeit am nächsten an der „Magie“ ist.

Der Ansatz von Google unterscheidet sich von den beiden vorherigen Ansätzen. Es geht noch einen Schritt weiter und direkter als das „Verständnis der Welt“ und die „Raumrekonstruktion“: Es schafft eine realistische und in Echtzeit interagierbare virtuelle Umgebung, in der die KI tatsächlich lernen kann.

Wenn man den Befehl „Bootfahren auf den Kanälen von Venedig in einem Sturm“ eingibt, kann es eine 3D-Umgebung mit 720p und 24fps generieren. Sie können die Figur in dieser Umgebung bewegen, Gegenstände bedienen und sogar das Wetter ändern.

Wenn Sie einen Vasen zerbrechen, bleiben die Fragmente auf dem Boden liegen. Wenn Sie weggehen und dann wieder zurückkommen, sind die Fragmente immer noch dort. Das heißt, die „Dauerhaftigkeit“ von Genie 3 reicht von der Umgebungsdauerhaftigkeit bis hin zur „Objektdauerhaftigkeit“ (object permanence).

Dies stellt jedoch hohe Anforderungen an die Rechenarchitektur. Shlomi Fruchter, der Forschungsleiter von DeepMind, sagte, dass für die Echtzeitinteraktion das Modell mehrmals pro Sekunde auf Informationen aus einer Minute zurückgreifen muss.

Ein solches Genie 3 ähnelt einem laufenden Spiele-Engine. Aber durch die übertreibende Darstellung in den Medien hat sich eine häufige Missverständnis entwickelt, dass Genie 3 ein Ersatz für eine Spiele-Engine sei.

Tatsächlich ist dies nicht der Fall. Es gibt keine echte festkodierte Physik-Engine, und alle Verhaltensweisen werden vom Modell aus den Trainingsdaten „gelernt“.

Dies ist sowohl ein Vorteil als auch ein Nachteil. Der Vorteil liegt in seiner Flexibilität: Das Modell kann selbst physikalische Eigenschaften und Kollisionsregeln ableiten. Der Nachteil besteht darin, dass die physikalische Simulation immer noch nicht so genau ist wie bei einer traditionellen Engine (festkodiert).

Was die Dauerhaftigkeit betrifft, ist Genie 3 derzeit aufgrund der oben erwähnten Rechenarchitektur-Beschränkungen und der Rechenleistung nur wenige Minuten lang kohärent, danach beginnt das Bild verzerrt zu werden - was für ein Spiel nicht akzeptabel ist.

Bis jetzt hat DeepMind nur das Problem der „Schaffung einer Umgebung“ gelöst. Was die KI-Trainierung betrifft, kommt hier ein anderes von Google entwickeltes Produkt, Dreamer, ins Spiel.

DreamerV4 wurde im Oktober 2025 veröffentlicht und ist ein Weltmodell-Framework, das ohne Interaktion mit der realen Welt und vollständig in der „Vorstellung“ lernt.

Es ist die erste KI, die in Minecraft nur mit offline-Daten Diamanten abbauen kann. Man muss bedenken, dass der Abbau von Diamanten von Grund auf über 20.000 präzise Maus- und Tastaturaktionen erfordert, einschließlich Baumfällen, Werkzeugbau, Bergbau, Schmelzen und auch der Vermeidung von Monstern und der Bewältigung von verschiedenen unvorhergesehenen Situationen.

Das VPT-Modell von OpenAI benötigte für eine ähnliche Aufgabe 270.000 Stunden markierte Videos und 194.000 Stunden Online-Stärkungslernen. DreamerV4 benötigt nur ein Hundertstel dieser Datenmenge.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。