Apokalypse des ersten Jahres der Weltmodelle: Motivation, Verwirrung und Klippen
Am 16. April hat Alibaba das Open-World-Modell Happy Oyster veröffentlicht, und Tencent hat das 3D-Weltmodell HY-World 2.0 Open-Source gemacht.
Am gleichen Tag haben diese beiden chinesischen Internetriesen ihre Präsenz auf dem Gebiet der Weltmodelle bekundet.
Weniger als einen Monat zuvor hatte die World Labs von Fei-Fei Li eine Finanzierung in Höhe von 1 Milliarde US-Dollar abgeschlossen, und die AMI Labs von Yann LeCun hat mit einer 1,03-Milliarden-US-Dollar-Saatfinanzierung das Silicon Valley geschockt.
Investoren, Konzerne und Unternehmer strömen in diesen Bereich ein, und ein lautes Schlagwort hat sich schnell in der Branche verbreitet: Weltmodelle sind der wichtigste Bereich nach den Large Language Models (LLMs).
Aber wenn Sie diese Akteure fragen, was ein Weltmodell eigentlich ist, werden Sie wahrscheinlich eine Reihe widersprüchlicher Antworten erhalten.
Manche sagen, es sei eine "interaktive 3D-Welt", andere, es sei ein "kausales Modell, das physikalische Gesetze versteht", wieder andere, es sei ein "digitaler Simulator für die Robotertrainierung", und einige sagen einfach, es sei "ein fortschrittlicherer Videogenerator".
Dies ist keine akademische Meinungsverschiedenheit, sondern eine kognitive Verwirrung, durch die der gesamte Bereich derzeit geht.
Dieser Artikel versucht, diese Verwirrung zu klären. Wir werden von drei aufeinander aufbauenden Fragen ausgehen: Warum setzen plötzlich alle großen Unternehmen auf Weltmodelle? Was tun ihre Produkte tatsächlich, was ist real und was ist virtuell? Und wie tief liegen die Probleme und die unklaren Bereiche, die hinter der Glanzschicht verborgen sind?
I. Warum setzen plötzlich alle auf Weltmodelle?
Um zu verstehen, warum Weltmodelle plötzlich so beliebt geworden sind, müssen wir uns zunächst einem peinlichen Faktum der Large Language Models zuwenden.
In den letzten zwei Jahren haben ChatGPT und ähnliche Modelle beeindruckende Sprachfähigkeiten gezeigt, aber auch eine tödliche Schwäche aufgedeckt: Sie verstehen die physische Welt nicht.
Wenn Sie einem LLM fragen, was passiert, wenn man eine Tasse vom Tischrand stößt, kann es antworten, dass die Tasse auf den Boden fällt, aber es versteht nicht wirklich Gravitation, Beschleunigung und Kollision. Es hat einfach ähnliche Sätze aus den Trainingsdaten gelernt.
Eine Studie Anfang 2026 hat gezeigt, dass die Halluzinationen kein Daten- oder Trainingsproblem sind, sondern eine inhärente Schwäche der LLM-Architektur.
Diese Schwäche kann in reinen Texttasks vielleicht toleriert werden, aber wenn der AI in die reale Welt eintreten soll - Roboter steuern, Autos fahren, in einer Fabrik arbeiten - wird sie zu einem unüberwindbaren Hindernis. Man kann nicht zulassen, dass ein Autonomes-Fahren-Modell die Hindernisse vor ihm "ungefähr richtig" einschätzt, und man kann nicht erwarten, dass ein Industrieroboter die Bewegungsbahn von Teilen "ungefähr" vorhersagt.
So taucht ein grundlegendes Bedürfnis auf: Wir brauchen eine KI, die die kausalen Gesetze der physischen Welt versteht.
Sie muss nicht nur sprechen können, sondern auch handeln; nicht nur sehen, sondern auch vorhersagen können. Das ist der grundlegende Grund, warum Weltmodelle in den Mittelpunkt der Aufmerksamkeit gerückt sind.
Large Language Models haben die Beziehung zwischen Menschen und Informationen verändert, und Weltmodelle sollen die Beziehung zwischen Menschen und der Realität verändern.
In den letzten zwei Jahren war die Kommerzialisierung von KI hauptsächlich auf die Informationsverarbeitung beschränkt, wie das Schreiben von Texten, das Übersetzen und das Generieren von Code. Aber der nächste Wachstumsimpuls liegt offensichtlich in der physischen Welt: Embodied AI, autonomes Fahren, intelligente Fertigung.
Für all diese Szenarien ist es erforderlich, dass die KI Raum versteht, Bewegungen vorhersagt und Aktionen plant.
Deshalb setzen die großen Unternehmen auf Weltmodelle, um die technologische Spitze im "Post-LLM-Zeitalter" zu erobern. Wer die KI zuerst dazu bringt, die physische Welt wirklich zu verstehen, wird in der nächsten Industrierevolution die Vorherrschaft erlangen.
Die Strategien der chinesischen und amerikanischen Akteure unterscheiden sich stark.
In den USA arbeiten DeepMind, World Labs und AMI Labs eher an Grundlagenforschung.
Ihnen geht es darum, der KI menschliche physikalische Intuition und kausales Denken zu verleihen. Die Kommerzialisierung ist ein langfristiges Ziel. Yann LeCun selbst hat zugegeben, dass die Produkte von AMI erst in einigen Jahren sichtbar werden könnten.
In China sieht es anders aus. Alibaba und Tencent haben ihre Modelle nahezu gleichzeitig mit kommerziellen Anwendungen verknüpft: Happy Oyster zielt auf zahlende Benutzer in der Film- und Spielentwicklung ab, und HY-World 2.0 liefert direkt 3D-Assets, die in Unity/UE importiert werden können, und betreibt so den Geschäftszweig der KI-gestützten Weltgenerierung.
Auch VidMuse von Sand.ai hat in wenigen Monaten nach dem Start einen Jahresumsatz im Millionen-Dollar-Bereich erzielt, indem es sich auf das Nischenfeld der Musik-basierten Videogenerierung spezialisiert hat.
Die chinesischen Teams folgen einer pragmatischen Logik: Weltmodelle müssen zuerst profitabel sein.
Beide Ansätze sind nicht besser oder schlechter, aber sie bestimmen den Rhythmus und das Risiko. Die amerikanischen Teams wagen es, auf einen Durchbruch in zehn Jahren zu setzen, während die chinesischen Teams binnen eines Jahres Rendite erwarten müssen.
Das Problem ist, dass es für Außenstehende schwierig ist, zu verstehen, was jeder macht, wenn alle unter einem heißen Schlagwort rufen.
II. Die Prüfung der technischen Standards
Wenn Sie sich die Produktbeschreibungen der verschiedenen Anbieter ansehen, werden Sie wahrscheinlich noch verwirrter. Denn jedes Weltmodell sieht anders aus, und ihre zugrunde liegenden Logiken widersprechen sich sogar.
Betrachten wir zunächst die am wenigsten intuitiv erscheinende Gruppe. Die AMI Labs von Yann LeCun gehen einen Weg, den nur wenige wagen: Sie glauben nicht, dass die KI realistische Bilder generieren muss.
LeCuns JEPA-Architektur verzichtet bewusst auf Pixel-Details und macht Vorhersagen nur im abstrakten latenten Raum. Das neueste LeWorldModel hat nur 15 Millionen Parameter und kann auf einer einzigen GPU in wenigen Stunden trainiert werden, aber seine Planungsgeschwindigkeit ist 48 Mal schneller als die herkömmlichen Methoden.
Der Nachteil ist, dass die Ausgabe für Menschen unverständlich ist. Man kann nicht "sehen", was es für die Zukunft vorhersagt, sondern muss einfach darauf vertrauen, dass es richtig gerechnet hat.
Dies ist ein rein akademischer Ansatz, der weit von den normalen Benutzern entfernt ist. Aber LeCun setzt darauf, dass echte Intelligenz nicht jedes einzelne Blatt, das fällt, simulieren muss, sondern nur die Kausalität "der Wind lässt die Blätter fallen" verstehen muss.
Ein anderer Ansatz kommt von der World Labs von Fei-Fei Li. Sie glaubt, dass Intelligenz auf einem expliziten Verständnis des dreidimensionalen Raums basieren muss. Ihr Marble-Modell kann aus einem Foto oder einem Text eine bearbeitbare und navigierbare 3D-Welt generieren, in der die Benutzer die Perspektive frei bewegen können.
Die World Labs hat auch den Rendering-Engine Spark 2.0 Open-Source gemacht, sodass normale Browser problemlos Hundermillionen von 3D-Punkten laden können.
Ehrlich gesagt: Marble ist gut darin, die räumliche Struktur wiederherzustellen, aber es versteht noch relativ wenig, was in diesem Raum passiert.
Sie können in das von ihm generierte Zimmer gehen, aber Sie können den Stuhl darin nicht verschieben und die Tasse auf dem Tisch nicht umwerfen. Es ist ein Reproduktor einer statischen Welt, nicht ein Simulator dynamischer Physik.
Die am aktivsten vertretene Gruppe sind die Generative. Google's Genie 3, Alibaba's Happy Oyster und Tencent's HY-World 2.0 gehören zu dieser Kategorie.
Ihre Logik ist: Wenn die generierten Bilder realistisch genug und die Interaktion reibungslos genug sind, werden die physikalischen Gesetze automatisch gelernt.
Alibaba hat in Happy Oyster eine interessante Funktion namens "Regisseurmodus" implementiert. Benutzer können während des Videowiedergabes eine Textanweisung eingeben, um die Handlung zu verändern und die Kameraperspektive zu wechseln. Tencent ist noch pragmatischer und liefert direkt bearbeitbare 3D-Assets, die Spielentwickler direkt in die Unity- oder UE-Engine importieren können.
Aber alle diese Produkte haben ein gemeinsames Problem: Die Konsistenz über längere Zeiträume und die physikalische Genauigkeit sind noch instabil.
Die Demo von Genie 3 ist beeindruckend, aber nach ein paar Minuten verliert das Bild die Form. Alibaba's Roaming-Modus unterstützt derzeit nur eine kontinuierliche Bewegung von einer Minute. Was passiert, wenn diese Zeit überschritten wird? Die Offizielle Seite sagt nichts darüber.
Tencents 3D-Assets sehen in einer einzelnen Szene gut aus, aber ihre Stärke liegt hauptsächlich in der Vollständigkeit der Szene und der Übereinstimmung mit den Eingabebildern. Dies sind "Anschein"-Kriterien, nicht "physikalisch richtige" Kriterien.
Schließlich gibt es noch einen speziellen Akteur: NVIDIA. Die Cosmos-Plattform produziert keine Weltmodelle, sondern "Werkzeuge zur Produktion von Weltmodellen".
Die Datenverarbeitungs-Pipeline, der Video-Tokenizer und das vortrainierte Basis-Modell sind alle kostenlos herunterladbar. Huang Renxun hat einen klaren Plan: Unabhängig davon, welcher Ansatz am Ende siegt, werden für das Training und die Inferenz NVIDIA-GPUs benötigt.
Dies ist das cleverste Geschäft: Man setzt nicht auf eine Richtung, sondern auf Rechenleistung.
Welche dieser Weltmodelle sind nun wirklich? Ein entscheidender technischer Standard ist: Ein echtes Weltmodell muss "aktionsabhängig" sein, d. h., wenn man eine Aktion eingibt, muss das Modell die Veränderung des Weltzustands ausgeben.
Wenn Sie die Taste "W" auf der Tastatur drücken, sollte sich die Perspektive im Bild nach vorne bewegen; wenn Sie einem Roboter einen Greifbefehl geben, sollte das Modell die Positionsänderung des Objekts vorhersagen.
Nach diesem Standard ist Feifei Lis Marble nicht ausreichend. Benutzer können nur schauen, aber nicht handeln. Es ist eher ein 3D-Wiederherstellungstool als ein Welt-Simulator.
Google's Genie 3 und Alibaba's Happy Oyster unterstützen zwar Interaktion, aber ihre physikalische Genauigkeit ist zweifelhaft. Tencents HY-World 2.0 liefert statische Assets und beinhaltet keine dynamische Vorhersage.
Mit anderen Worten, derzeit gibt es fast keine Firma auf dem Markt, die den Standard eines "perfekten physikalischen Welt-Simulators" erreicht hat. Jede Firma hat in ihren Fähigkeiten einen darstellbaren und kommerzialisierbaren Einstiegspunkt gewählt.
Das an sich ist nicht falsch, aber es ist falsch, dass alle sich mit dem vagen Begriff "Weltmodell" schmücken und die Außenwelt glauben lässt, dass sie alle Probleme gelöst haben.
III. Die absichtlich ignorierten unklaren Bereiche
Wenn man nur die Pressemitteilungen der Unternehmen liest, hat man den Eindruck, dass Weltmodelle kurz vor der massiven Implementierung stehen. Aber einige ignorierten Details zeichnen ein ganz anderes Bild.
Das Datenproblem steht an erster Stelle. Um ein echtes Weltmodell zu trainieren, benötigt man eine riesige Menge an "Beobachtung, Aktion, Ergebnis"-Tripeln, aber es gibt in der Realität keine solchen fertigen Datensätze.
Manche nutzen Spiel-Daten, die perfekte Aktionslabels haben, aber die Physik in Spielen wird von der Engine simuliert und ist nicht die reale Physik.
Manche nutzen menschliche Erstpersonen-Videos, die am nächsten an der realen Welt liegen, aber es gibt keine Aktionslabels in den Videos, und die Kopfbewegungen und Handbewegungen der Menschen sind miteinander vermischt, sodass das Modell nicht unterscheiden kann, was sich bewegt.
Manche nutzen Daten aus der Fernsteuerung echter Roboter, die die höchste Fidelität haben, aber die Erfassung einer Stunde an Daten kann Tausende von US-Dollar kosten, und es ist nicht möglich, die Skala aufzubauen.
Das bedeutet, dass jedes Weltmodell eine natürliche "Fähigkeitsgrenze" hat.
Das Fehlen eines einheitlichen Bewertungssystems ist ein weiteres Problem. Wenn Sie auf die Website einer Weltmodell-Firma gehen, sehen Sie fast immer die Aussage "Erster Platz in der globalen autoritativen Bewertungsliste".
Das Problem ist, dass diese Bewertungslisten selbst noch nicht ausgereift sind. Einige legen den Schwerpunkt auf die visuelle Realität, andere auf die physikalische Genauigkeit, wieder andere auf die Erfolgsrate bei Aufgaben. Ein Modell, das auf der visuellen Liste den ersten Platz belegt, kann auf der physikalischen Liste ganz unten stehen.
Diese Uneinheitlichkeit der Standards lässt die Unternehmen ihre eigenen Geschichten erzählen. Der Durchschnittsbürger versteht einfach nicht, ob es sich um verschiedene Kategorien der gleichen Liste handelt oder um geschickt verpackten Marketing-Sprech.
Es gibt auch ein absichtlich ignoriertes "unmögliches Dreieck".
Weltmodelle müssen drei sich gegenseitig einschränkende Kriterien berücksichtigen: Raumskala, visuelle Fidelität und Echtzeit-Interaktivität.
Man kann nicht gleichzeitig "eine große Welt, klare Bilder und reibungslose Interaktion" erreichen. Feifei Lis Marble ist das beste Beispiel: Die Version 1.1 hat eine gute Bildqualität, aber den Raum ist beschränkt; die Version 1.1-Plus kann große Szenen generieren, aber die Bildqualität ist unscharf.
Matrix-Game 3.0 von Kunlun Wanwei kann in einer Auflösung von 720P mit 40 FPS in Echtzeit generieren, aber die Art und die Komplexität der Demoszenen sind begrenzt.
Fast kein Produkt gibt freiwillig seine Schwächen zu. Stattdessen zeigen sie lieber Demo-Videos unter optimalen Bedingungen und verstecken die Fehlschläge unter extremen Bedingungen. Diese selektive Präsentation schafft eine gefährliche Blase.
Schließlich bringt die Kapitalparty auch neue Spekulationsrisiken mit sich.
Ein bemerkenswertes Phänomen ist, dass das Kapital von der Unterstützung von "Alten Hasen" der großen Unternehmen hin zu jungen Wissenschaftlern aus Spitzenuniversitäten wechselt. Die beiden Gründer von Inverse Matrix Technology sind 1998 und 2004 geboren und stammen von der Peking-Universität. Ihre erste Finanzierungsrunde belief sich auf über 10 Millionen US-Dollar.
Ihr technischer Ansatz ist "Reinforcement Learning + Weltmodell". Derzeit gibt es nur Papers, keine Produkte. Das heißt nicht, dass junge Leute nicht in der Lage sind, sondern dass das Kapital in der Phase der Paradigmenverwirrung bereit ist, einen hohen Preis für die Möglichkeit zu zahlen, die nächste Generation von Technologien zu definieren.
Aber die meisten dieser Labore-Projekte können am Ende die Kluft zwischen "Paper und Produkt" nicht überbrücken. Selbst Yann LeCun, ein Turing-Award-Gewinner, hat zugegeben, dass die Kommerzialisierung noch Jahre dauern wird. Was also von frisch gebackenen Doktoranden zu erwarten ist?
IV. Fazit
Das Ziel von Weltmodellen ist es, dass die KI die physische Welt vorhersagen und sogar beeinfl