Der Krieg ohne einheitlichen Namen: Die Weltmodell-Landschaft der großen inländischen Technologieunternehmen

Weltmodell: Große Technologieunternehmen setzen am Spieltisch der „Weltgestaltung“ aufs Ganze

Der Text ist bereits in deutscher Sprache, also wird der Originaltext zurückgegeben:

Der Name "Weltmodell" hat in der Branche bisher keine einheitliche Definition. Manche nennen es Weltmodell, andere Weltbasismodell, wieder andere Physik-AI. Einige verstecken es sogar in der Architektur von Großen Modellen für autonomes Fahren, VLA oder körperlich eingebetteten Intelligenzsystemen und geben es keine eigene Bezeichnung.

Alibabas Qwen - AgentWorld, HappyOyster und Qwen - RobotWorld zielen jeweils auf die sprachliche Welt, die virtuelle Welt und die physische Welt. Tencents HY - World neigt eher zu einer 3D - editierbaren Welt. Automobilhersteller bevorzugen die Begriffe Fahrweltmodell oder Weltverhaltensmodell. Huawei und Baidu erwähnen das Wort "Weltmodell" gar nicht separat.

Hinter der Verwirrung bei den Bezeichnungen macht man eigentlich das Gleiche:

Man lässt die Maschine vor dem eigentlichen Handeln zunächst eine dynamische, nachvollziehbare und wiederholbare Umgebung im Inneren aufbauen, um die unbegrenzte Abhängigkeit von realen Daten zu verringern und die reale Welt in einen Datenmotor zu komprimieren, der unbegrenzt generieren, fehlschlagen und neu starten kann.

IT Juzi hat kürzlich einen Bericht über 33 chinesische Startup - Unternehmen, die an "Weltmodellen" arbeiten, veröffentlicht, was in der Branche Beachtung erregte. Heute schauen wir uns die Pläne der großen Unternehmen in dieser Richtung an -

Während die Startups noch um die Datenakquise - Rechte und die Rechenleistungskosten ringen, haben Alibaba, Tencent, Huawei, NIO, XPeng und Li Auto heimlich ein neues Rennen mit Weltmodellen eröffnet.

Das Weltmodell ist eine Ambition: Es soll die KI befähigen, die Welt nicht nur zu erkennen, sondern sie zunächst im Kopf zu durchlaufen.

Hersteller von autonom fahrenden Fahrzeugen möchten damit "Prüfungen" für Regen, Schnee und ungewöhnliche Hindernisse generieren. Teams für körperlich eingebettete Intelligenz möchten damit Roboter in der Simulation hunderttausend Mal stürzen lassen, bevor sie losfahren. Spiele - und Sozialmedia - Unternehmen möchten damit ein paralleles Universum erschaffen, in das Menschen eintauchen können.

Die großen Unternehmen gehen auf verschiedene Wege vor, aber ihr Kernziel ist das Gleiche: Die reale Welt in einen Datenmotor zu komprimieren, der unbegrenzt nachvollziehbar und wiederholbar ist.

I. Internet - Giganten: Von der digitalen zur physischen Welt

Alibabas Planung für Weltmodelle sieht am ehesten aus wie "das Auslegen der Dinge auf dem Regal Stück für Stück".

Im Juni 2026 hat es in nur wenigen Tagen drei Karten auf den Tisch gelegt:

Am 16. Juni die Qwen - Robot - Serie, am 17. Juni HappyOyster 1.0 und am 24. Juni Qwen - AgentWorld.

Qwen - AgentWorld ist ein natives Sprachweltmodell. Es generiert keine Bilder, sondern Umgebungen - in sieben Umgebungen (MCP - Tool, Suche, Terminal, Code - Projekt, Web, Betriebssystem, Android) kann das Modell reale Interaktionen simulieren, autonom lernen und sich durch verstärktes Lernen verbessern. Es gibt zwei Größen: Ein MoE - Aufbau mit 35 Milliarden und 397 Milliarden Gesamtparametern, wobei die aktiven Parameter 3 Milliarden und 17 Milliarden betragen. Die Trainingsdaten stammen aus über 10 Millionen realen Umgebungs - Interaktionspfaden. Sowohl das Modell als auch der Bewertungsstandard AgentWorldBench sind open - source. Das bedeutet, dass das Weltmodell als "Trainingsplatz" für Agenten und nicht als "Dekoration" behandelt wird.

HappyOyster 1.0 sieht anders aus. Es ist eher wie ein "spielbarer Filmset": Wenn der Benutzer einen Satz oder ein Bild angibt, generiert es eine offene Welt und lässt den Benutzer in zwei Modi ("Welt - Exploration" und "Echtzeit - Regie") frei eingreifen. Der Explorationsmodus unterstützt kontinuierliche Echtzeit - Verschiebungen und Kamerasteuerungen über bis zu 1 Minute. Der Regiemodus kann Echtzeit - Bilder in 480p/720p über 3 Minuten hinaus generieren. Alibaba positioniert es als Zugangspunkt für Branchen wie interaktive Spiele, virtuelle Begleitung, interaktive Kurzfilme und touristische Erlebnisse.

Qwen - RobotWorld geht in eine andere Richtung. Es ist das "Denkgehirn" von Alibabas körperlich eingebetteten Intelligenz - Set und arbeitet zusammen mit dem VLA - Manipulationsmodell Qwen - RobotManip und dem VLN - Bewegungsmodell Qwen - RobotNav. Ziel ist es, dass Roboter eine vorausplanbare innere Welt haben.

Zusammen gesetzt kämpft Alibaba gleichzeitig um die Definition der sprachlichen, virtuellen und physischen Welt.

Tencents Hunyuan geht einen anderen Weg. Seine HY - World - Serie sieht eher aus wie das Aufbauen einer "Automatischen Fabrik für 3D - Spiele".

Im Juli 2025 hat Tencent auf der WAIC das Hunyuan 3D - Weltmodell 1.0 open - source veröffentlicht. Im Dezember wurde es auf Version 1.5 aktualisiert. Im April 2026 wurde HY - World 2.0 veröffentlicht und open - source gemacht. Eingabe können Text, Einzelbilder, Mehrfachbilder, Videos oder sogar Weißmodelle sein, Ausgabe können 3DGS, Mesh, Punktwolken sein.

Die Version 2.0 hat Module wie HY - Pano 2.0, WorldNav, WorldStereo 2.0 und WorldMirror 2.0 eingeführt und die Weltgenerierung, Weltrekonstruktion, Panoramabilder und Echtzeit - Weltgenerierung zu einem geschlossenen Kreis verbunden.

Tencents Stärke liegt in den Spiel - und Sozialmedia - Szenarien. Die echten Benutzer von HY - World sind nicht diejenigen, die autonomes Fahren trainieren, sondern diejenigen, die Spiellevel, virtuelle Aufnahmen und digitale Zwillingsmodelle erstellen.

Das Weltmodell - Projekt von ByteDance ist eher wie eine "Geheimgemachte" mit dem Gen der Kurzvideos - Daten.

Im August 2025 hat The Information berichtet, dass das Seed - Team von ByteDance ein Weltmodell entwickelt. An der Spitze steht Zhou Chang, ein ehemaliges Kernmitglied von Tongyi Qianwen. Die größte Stärke dieses Projekts sind die täglich über 1 Milliarde Videostreams von Douyin und TikTok sowie der EX - 4D - Rahmen, der Einblick - Videos in 4D - Mehrfachperspektivenszenarien umwandeln kann. Es setzt sich mit Google Genie 3 und Meta V - JEPA 2 auseinander. Ziel ist nicht, einen schönen Videogenerator zu bauen, sondern ein "digitale Zwillings" zu schaffen, das die physikalischen Gesetze simulieren kann.

Am 23. Juni 2026 auf der Force - Konferenz von Volcengine hat ByteDance das Weltmodell nicht direkt veröffentlicht, sondern die Doubao Seed 2.1 - Serie, das Seedance 2.5 - Videogenerierungsmodell, das Seedream 5

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。