StartseiteArtikel

Einführung in das Konzept des Weltmodells: Eine Geschichte, die von der Psychologie ins Hauptfeld der KI übergeht

IT桔子2026-06-29 12:57
Es gibt keinen einheitlichen Namen, aber alle streben danach: Eine Einführung in Weltmodelle

Das Weltmodell ist derzeit das heißeste, aber auch für die meisten Menschen am schwersten zu verstehende Konzept im Bereich der Künstlichen Intelligenz (KI). Manche sagen, es sei die Fähigkeit der KI, zu träumen. Andere bezeichnen es als Simulator für autonomes Fahren. Wieder andere sehen es als das Gehirn von Robotern.

Fei - Fei Li, Yann LeCun, OpenAI, Google DeepMind, NVIDIA sowie chinesische Unternehmen wie Alibaba, Tencent, Huawei und Automobilhersteller haben jeweils ihre eigene Definition.

Dieser Artikel versucht, es in einfacher Sprache zu erklären:

Welches Problem das Weltmodell eigentlich lösen will; warum Wissenschaftler und große Unternehmen es so fasziniert; und warum dieses Konzept bereits zu einem heiß umkämpften Gebiet in der Industrie geworden ist, bevor sich einmal ein einheitlicher Name etabliert hat.

1. Ein Satz zur Erklärung: Lassen Sie die KI die Welt in einem "geistigen Sandkasten" vorhersagen

Stellen Sie sich vor, Sie stehen an einer Kreuzung und möchten die Straße überqueren.

Ihre Augen sehen die Grünlichtphase, Fahrzeuge und Fußgänger. Ihr Gehirn konstruiert in ein paar Hundertstelsekunden eine kleine Szene: Wenn ich jetzt losgehe, wird jenes Auto beschleunigen? Wird der Radfahrer plötzlich abbiegen?

Sie gehen nicht tatsächlich los, sondern gehen in Gedanken einige Möglichkeiten durch.

Psychologen nennen diese Fähigkeit "Mentalmodell", KI - Forscher nennen sie "Weltmodell".

Mit anderen Worten, das Weltmodell ist ein "geistiger Sandkasten" in der Maschine.

Es erkennt nicht einfach, was auf einem Bild zu sehen ist, sondern kann vorhersagen, was als Nächstes passieren wird, und kann wiederholt Fehlversuche machen, ohne tatsächlich zu handeln.

Für autonomes Fahren kann es virtuelle Tests für Starkregen, Schneestürme und ungewöhnliche Hindernisse generieren; für Roboter kann es ermöglichen, dass humanoide Roboter in einer simulierten Welt hunderttausend Mal stürzen, bevor sie in die reale Welt gehen; für Spiele - und Filmunternehmen kann es ein Paralleluniversum sein, das unendlich erforscht werden kann.

Im Jahr 2026 taucht der Begriff "Weltmodell" in technologischen Berichten häufiger auf als seine Definition klar ist.

Alibaba hat Qwen - AgentWorld, HappyOyster und Qwen - RobotWorld entwickelt, die sich jeweils auf die sprachliche Welt, die virtuelle Welt und die physische Welt beziehen; Tencents HY - World 2.0 betont die 3D - editierbare Welt; NIO, XPeng und Li Auto bevorzugen eher den Begriff "Fahrweltmodell" oder "Weltverhaltensmodell"; Huawei und Baidu verwenden diesen Begriff in ihren öffentlichen Materialien nicht oft einzeln.

Die Verwirrung bei der Benennung lässt dieses Konzept wie einen Korb aussehen, in den alles hineingesteckt werden kann.

Aber hinter allen Bezeichnungen liegt ein gemeinsamer Kern:

Die Maschine soll vor dem eigentlichen Handeln eine interne, abwickelbare und nachvollziehbare Umgebung aufbauen. Diese Umgebung kann aus Pixeln, aus dreidimensionalen Strukturen, aus physikalischen Parametern oder aus abstrakten Zuständen bestehen. Das Ziel ist es, die unbegrenzte Abhängigkeit von realen Daten zu verringern und die reale Welt in einen Datenmotor zu komprimieren, der unendlich generieren, unendlich Fehler machen und unendlich wiederholen kann.

Die fehlende Einheitlichkeit der Namen zeigt genau, dass sich das Weltmodell noch in der frühen Phase des Übergangs von einem akademischen Konzept zu einer industriellen Infrastruktur befindet.

2. Die Ursprünge der Idee: Ein Psychologe aus dem Zweiten Weltkrieg und einige KI - Pioniere

2.1 Kenneth Craik: Der erste, der von einem "geistigen Kleinmodell" sprach

Die Idee des Weltmodells ist um mehr als ein halbes Jahrhundert älter als der Deep Learning - Ansatz. 1943 stellte er fest, dass das menschliche Gehirn "kleine Modelle" der Realität aufbaut, um äußere Ereignisse vorherzusagen und zu verstehen.

Craik war damals erst 31 Jahre alt und ein Wissenschaftler am Psychologischen Labor der Universität Cambridge. Während des Zweiten Weltkriegs arbeitete er in Großbritannien an Anwendungen der Psychologie.

Zwei Jahre nach der Veröffentlichung seines Buches starb er im Alter von 33 Jahren bei einem Fahrradunfall.

Aber seine Idee blieb erhalten: Menschen müssen die Welt nicht vollständig nachbauen, sondern brauchen nur ein hinreichend gut funktionierendes internes Modell, um vor dem Handeln eine Vorhersage zu treffen.

Diese Ansicht stimmt fast mit dem Kern des heutigen KI - Weltmodells überein. Maschinen müssen auch nicht jedes Detail der Welt auswendig lernen, sondern können die Regeln des Weltablaufs lernen und bei Bedarf die Zukunft vorhersagen.

Nach Craik hat der britische Psychologe Philip Johnson - Laird in den 1980er Jahren diese Idee weiter ausgebaut und bewiesen, dass eine Vielzahl menschlicher Schlussfolgerungen auf der Manipulation von "Mentalmodellen" im Gehirn beruht. Er war langjährig Professor an der Princeton - und der Cambridge - Universität und eine wichtige Figur in der Kognitionswissenschaft.

2.2 Marvin Minsky: Der, der wollte, dass Maschinen ein Rahmenwerk für Alltagskenntnisse haben

Im Bereich der Künstlichen Intelligenz gab es ebenfalls frühzeitig Anklänge. In den 1960er Jahren hat Marvin Minsky am Massachusetts Institute of Technology (MIT) die "Frame - Theorie" entwickelt.

Er war Mitbegründer des MIT AI - Labs und erhielt 1969 den Turing - Preis. Er wird oft als einer der Begründer der Künstlichen Intelligenz angesehen.

Die Frame - Theorie versucht, menschliche Alltagskenntnisse über die Welt in einem strukturierten Wissensrahmen zu fassen:

Beim Betreten eines Raumes muss man zuerst nach der Türklinke suchen. In einem Restaurant gibt es normalerweise Tische und Stühle. Gegenstände fallen unter dem Einfluss der Schwerkraft.

Was Minsky erreichen wollte, ist noch immer nicht gelungen - nämlich, dass Maschinen über eine strukturierte, abwickelbare Wissensbasis für die Welt verfügen.

2.3 David Ha und Jürgen Schmidhuber: Bringen das Weltmodell wieder in den Mittelpunkt des Deep Learning

Im Bereich des Reinforcement Learnings ist man auf einem anderen Weg an dasselbe Ziel herangekommen.

2018 haben David Ha und Jürgen Schmidhuber in einem Artikel in der NeurIPS - Konferenz mit dem Titel "Recurrent World Models Facilitate Policy Evolution" den Begriff "Weltmodell" wieder in den Mittelpunkt des Deep Learning gebracht.

David Ha arbeitete damals beim Google Brain und wurde später ein unabhängiger Forscher. Er hat einen eher technischen Arbeitsstil und ist gut darin, mit einfachen Architekturen beeindruckende Demos zu erstellen.

Jürgen Schmidhuber ist Mitbegründer des Schweizer AI - Labs IDSIA und Mitentwickler des Long Short - Term Memory (LSTM) - Netzwerks. Er ist im Bereich der KI für seine offenen Meinungen und unabhängigen Ansichten bekannt. Manchmal wird er als "Vater der modernen KI" bezeichnet, obwohl dieser Titel umstritten ist. Seine akademische Bedeutung ist jedoch unbestritten.

Ihre Architektur ist einfach:

Mit einem Variational Autoencoder (VAE) wird ein hochdimensionales Bild in einen niedrigdimensionalen latenten Vektor komprimiert. Ein rekurrentes neuronales Netzwerk (RNN) lernt die zeitliche Veränderung dieser Vektoren. Ein einfacher Controller trainiert dann Strategien in einer "Phantasie - Welt".

Der Agent träumt zuerst in dem gelernten Weltmodell und überträgt dann die Strategie in die reale Welt.

Dieser Artikel wurde für einen mündlichen Vortrag auf der NeurIPS - Konferenz ausgewählt und hat direkt die Entwicklung der Dreamer - Serie angeregt. Er hat auch das "Weltmodell" von einem psychologischen Konzept zu einem technischen Ziel im Deep Learning gemacht.

3. Das Weltmodell aus Sicht von Wissenschaftlern

3.1 Yann LeCun: Es geht nicht nur darum, Videos zu generieren, sondern die Physik zu verstehen

Yann LeCun ist französischer Nationalität und Professor an der New York University. Er ist der Leiter der KI - Forschung bei Meta.

Er ist Mitentwickler des Convolutional Neural Networks (CNN) und erhielt 2018 gemeinsam mit Geoffrey Hinton, dem Doktorvater von Fei - Fei Li, und Yoshua Bengio den Turing - Preis. Die drei werden als "Die drei Großen des Deep Learning" bezeichnet.

LeCun kritisiert seit langem den Ansatz der aktuellen Large Language Models (LLMs). Er ist der Meinung, dass es nicht möglich ist, echte Intelligenz nur durch die Vorhersage des nächsten Wortes zu erzeugen.

2022 hat er in einem Artikel mit dem Titel "A Path Towards Autonomous Machine Intelligence" vorgeschlagen, dass echte Intelligenz ein konfigurierbares Vorhersagemodell der Welt erfordert.

Das Ziel ist nicht die Generierung von Text oder Bildern, sondern das Verständnis der physikalischen Gesetze der Welt und die Vorhersage der Folgen von Handlungen. Er kritisiert sogar die Weiterentwicklung von LLMs als "Unsinn" und ist der Meinung, dass der Kern der Intelligenz das Lernen der physikalischen Struktur der realen Welt ist.

JEPA ist das technische Instrument für diesen Ansatz. JEPA steht für Joint Embedding Predictive Architecture, also "Gemeinsame Einbettungs - Vorhersagearchitektur".

Im Gegensatz zur Vorhersage des nächsten Bildes im Pixelraum simuliert JEPA die Veränderung des Weltzustands in einem abstrakten Repräsentationsraum.

Um es anschaulich zu machen: Ein Videogenerierungsmodell malt das nächste Bild, während JEPA "fühlt", was als Nächstes passieren wird.

Das I - JEPA von 2023, das V - JEPA von 2024, das LeJEPA von 2025 und das LeWorldModel von 2026 bilden ein sich ständig weiterentwickelndes System.

LeCun hat auch das Konzept von "System 1 / System 2" eingeführt: System 1 ist die intuitive, schnelle Reaktion, System 2 ist die langsame, gründliche Überlegung und Planung mit Hilfe des Weltmodells.

Neueste theoretische Arbeiten haben sogar gezeigt, dass unter bestimmten Bedingungen die von JEPA gelernten Repräsentationen eine lineare Beziehung zu realen physikalischen Variablen aufweisen können. Das heißt, das Modell lernt im mathematischen Sinne die physikalische Struktur und nicht nur eine nützliche Codierung.

3.2 Fei - Fei Li: Klassifizieren Sie Weltmodelle mit der "Aktion - Beobachtung" - Schleife

Fei - Fei Li ist Professorin für Informatik an der Stanford University und Hauptverantwortliche für den ImageNet - Datensatz. ImageNet hat 2012 die Deep - Learning - Revolution ausgelöst, weshalb sie auch als "Mutter der KI" bezeichnet wird.

Sie war einst Leiterin der KI - Forschung bei Google Cloud und gründete 2023 World Labs, das sich auf räumliche Intelligenz und 3D - Weltmodelle konzentriert. 2024 hat sie mehrere Auszeichnungen für die Förderung der Demokratisierung der KI und ihrer Anwendungen in der Medizin erhalten. Sie ist eine der einflussreichsten chinesischen Wissenschaftlerinnen im Bereich der KI.

Im Juni 2026 hat Fei - Fei Li zusammen mit ihrem Team von World Labs einen weit verbreiteten Artikel veröffentlicht, in dem sie versucht, die verwirrende Welt der Weltmodelle zu klassifizieren.

Sie bezieht sich auf das POMDP (Partially Observable Markov Decision Process) aus dem Bereich des Reinforcement Learnings.

Dieser Begriff klingt kompliziert, beschreibt aber eigentlich einen sehr einfachen Zyklus: Ein Agent nimmt eine Aktion, die Aktion verändert den Weltzustand, der Agent erhält Beobachtungen und nimmt dann auf der Grundlage dieser Beobachtungen die nächste Aktion.

Sie weist darauf hin, dass alle Systeme, die als Weltmodelle bezeichnet werden, im Wesentlichen Projektionen dieses Zyklus in verschiedene Richtungen sind. Jede Klasse gibt nur ein Segment dieses Zyklus aus.

Basierend auf diesem Ansatz teilt sie die Weltmodelle in drei Klassen ein.

Die erste Klasse sind Renderer, die Beobachtungen ausgeben, also Pixel, die für das menschliche Auge sichtbar sind. Typische Beispiele sind Videogenerierungsmodelle und Google Genie 3. Das Optimierungsziel ist die visuelle Treue.

Die zweite Klasse sind Simulatoren, die Zustände ausgeben, also eine treue Repräsentation der Welt auf geometrischer, physikalischer und dynamischer Ebene. Typische Beispiele sind NVIDIA Omniverse und World Labs' Marble. Das Optimierungsziel ist die strukturelle Genauigkeit.

Die dritte Klasse sind Planer, die Aktionen ausgeben, also die Antwort auf die Frage "Was soll als Nächstes getan werden?" geben, wenn Beobachtungen und Ziele gegeben sind. Typische Beispiele sind VLA und World Action Models.

Fei - Fei Li ist der Meinung, dass diese drei Klassen von Fähigkeiten auf demselben Wissen basieren und dass der Trend hin zu einem einheitlichen Weltmodell geht.

3.3 Das FIB - Lab der Tsinghua - Universität: Es gibt nur zwei Arten von Weltmodellen, die Welt verstehen oder die Zukunft vorhersagen

Das FIB - Lab der Tsinghua - Universität ist ein Team, das seit langem an der Forschung zu allgemeiner KI, eingebetteter Intelligenz und Robotik lernt. FIB wird normalerweise als "Zukunftsinformatik und Gehirn" - Labor verstanden und gehört zur Tsinghua - Institute for Artificial Intelligence and Robotics.

Dieses Team hat zahlreiche Übersichtsartikel und Forschungsarbeiten über Weltmodelle und Robotik veröffentlicht und ist eine der wichtigsten Kräfte in China auf diesem Gebiet.

2026 haben sie einen Übersichtsartikel mit dem Titel "Understanding World or Predicting Future: A Comprehensive Survey of World Models" veröffentlicht, in dem sie das Gebiet auf eine andere Weise aufteilen.

Sie teilen die Kernfunktionen von Weltmodellen in zwei Kategorien ein: Weltverständnis und Zukunftsvorhersage.

Das Weltverständnis betont die Konstruktion einer impliziten Repräsentation der äußeren Umgebung, um Entscheidungen zu unterstützen. Beispiele sind die Dreamer - Serie und Weltwissen auf der Grundlage von LLMs.

Die Zukunftsvorhersage betont die explizite Generierung von zukünftigen Zuständen. Typische Beispiele sind Videogenerierungsmodelle wie Sora, Genie 3 und Cosmos oder 3D - Umgebungsgenerierungsmodelle.

Der Vorteil dieser Klassifizierung ist, dass sie näher an der technischen Praxis liegt: Das erste dient dem Reinforcement Learning und der Entscheidungsfindung, das zweite der Generierung und Simulation.

3.4 Das OpenWorldLib der Peking - Universität: Ein standardisiertes Toolkit für Weltmodelle

Im April 2026 hat die Peking - Universität zusammen mit Unternehmen wie Kuaishou OpenWorldLib veröffentlicht. Die Peking - Universität ist ein wichtiger Ort für die Grundlagenforschung in der KI in China und hat Einrichtungen wie das Key Laboratory of Machine Perception (Ministry of Education). Kuaishou ist ein großer Anbieter von Kurzvideos in China und hat in den letzten Jahren viel in Large Models und multimodale Generierung investiert.

Die gemeinsame Veröffentlichung von OpenWorldLib zeigt, dass sowohl die akademische Welt als auch die Industrie beginnen zu erkennen, dass Weltmodelle einheitliche Standards und wiederverwendbare Komponenten benötigen.

OpenWorldLib versucht erstmals, eine standardisierte Definition von Weltmodellen zu