Enthüllung der großen Modelle: Die drei Arten von Weltmodellprodukten von Li Feifei aufgeschlüsselt – Verstehen Sie die nächste Billionen-Dollar-Bahn der KI
Wenn man sagt, dass das wichtigste Stichwort in der KI-Branche in den letzten drei Jahren "Große Sprachmodelle (LLM)" war, dann hat seit 2026 ein anderes Wort allmählich in den Schlagzeilen von Investmentinstituten, Robotikunternehmen und Technologie-Medien Aufmerksamkeit erregt - Weltmodelle (World Model).
Kürzlich hat Fei-Fei Li, eine renommierte Wissenschaftlerin auf dem Gebiet der KI, Professorin an der Stanford University und Gründerin von World Labs, einen ausführlichen Artikel veröffentlicht, in dem sie Weltmodelle definiert und systematisch klassifiziert hat.
Weltmodelle sind von einem technischen Konzept zu einem Finanzierungskonzept geworden. Obwohl dieses Konzept neu erscheint, gibt es bereits viele Menschen, die an der Forschung und Entwicklung von Weltmodellen beteiligt sind und bereits fertige Produkte auf den Markt gebracht haben.
Warum hat das Konzept der Weltmodelle
plötzlich 2026 so viel Aufmerksamkeit erregt?
Das Konzept der "Weltmodelle" existiert bereits seit vielen Jahren in den Forschungsbereichen des Reinforcement Learnings und der Robotik.
In den letzten zwölf Monaten ist es zu einem heiß begehrten Thema auf den Kapitalmärkten und in der Branche geworden. Einige Anleger gehen sogar davon aus, dass die Weltmodelle in Zukunft möglicherweise genauso wichtig sein könnten wie die heutigen großen Sprachmodelle. Im Vergleich zu den Weltmodellen, die die Regeln des physischen Weltlaufs verstehen und vorhersagen können, erscheinen die großen Sprachmodelle "schwebend".
Tatsächlich liegt der Grund für den plötzlichen Erfolg der Weltmodelle genau in dem Erfolg der großen Sprachmodelle.
Um 2023 glaubten viele Menschen, dass Modelle wie Chat GPT schließlich zu einer allgemeinen Künstlichen Intelligenz (AGI) führen würden, wenn man einfach die Datenmenge, die Rechenleistung und die Anzahl der Parameter weiter erhöht. Aber bis 2025 wurde ein immer deutlicher werdendes Problem offensichtlich: Die großen Sprachmodelle werden zwar immer schlauer, aber es scheint eine Art Glasdecke zu geben.
Wo liegt diese Glasdecke? Wir nutzen die Künstliche Intelligenz, um Artikel zu schreiben und Zusammenfassungen zu erstellen, und können komplexe Schlussfolgerungen aufgrund einer riesigen Menge an Wissen ziehen. Aber wenn es um die räumlichen, physikalischen und Bewegungsregeln der realen Welt geht, scheint die Künstliche Intelligenz etwas unzuverlässig zu sein.
Das Problem liegt wahrscheinlich darin, dass die "Künstliche Intelligenz" die Fähigkeit fehlt, die reale Welt zu verstehen.
Was wir hier brauchen, ist die sogenannte "räumliche Intelligenz" (Spatial Intelligence), und die Weltmodelle werden als einer der wichtigen Wege zur Erreichung dieser räumlichen Intelligenz angesehen.
Weltmodelle können als "Simulatoren der realen Welt" im Kopf der KI verstanden werden. Ein Kind, das einen Becher am Tischrand stehen sieht, weiß ungefähr, dass der Becher wahrscheinlich herunterfallen wird, auch wenn er noch nicht gefallen ist; dass er auf den Boden fallen und zerbrechen könnte und dass das darin enthaltene Wasser verschütten würde.
Diese Fähigkeit, basierend auf dem aktuellen Zustand zukünftige Ergebnisse vorherzusagen und die Regeln des realen Weltlaufs zu verstehen, ist ein Zeichen von Intelligenz. Das, was die Weltmodelle tun, ist es, diese Regeln über Raum, Zeit, Bewegung und Kausalität zu lernen.
In dem kürzlich von Fei-Fei Li und ihrem Team von World Labs veröffentlichten Artikel werden die Weltmodelle definiert und erklärt, und es werden drei Produktformen der Weltmodelle vorgeschlagen, die sie für wichtig hält:
Die erste Kategorie ist der "Renderer". Er ist am besten darin, die Frage zu beantworten: Wie sieht die Welt aus?
Die heute bekannten KI-Videoerzeugungsmodelle gehören grundsätzlich zu dieser Kategorie. Wenn ein Benutzer einen Text eingibt, kann das System filmreife Videobilder erzeugen. In Bezug auf die visuellen Effekte sind sie bereits sehr beeindruckend und können sogar so real aussehen, dass man es kaum von echtem Material unterscheiden kann.
Das Problem ist jedoch, dass diese Modelle verstehen, "wie es aussieht", aber nicht unbedingt, "was es tatsächlich ist". Ein von einer KI erzeugter Luftaufnahme eines Städtchens mag äußerst realistisch aussehen, aber wenn man tatsächlich ein Auto darin fahren lässt, könnten die Baustrukturen sofort Probleme aufzeigen. Denn das Modell beachtet die visuelle Plausibilität, nicht die physikalische.
Die zweite Kategorie ist der "Simulator". Er konzentriert sich auf die zugrunde liegende Struktur der Welt.
Der Simulator gibt nicht nur Bilder aus, sondern auch Zustandsinformationen auf geometrischer, physikalischer und dynamischer Ebene. Für Architekten, Designer und Spieleentwickler bedeutet dies, dass sie reale Berechnungen durchführen können; für Roboter und Fahrerassistenzsysteme bedeutet es, dass sie in einer virtuellen Umgebung trainiert und getestet werden können.
Beispielsweise können Fragen wie, ob eine Brücke sich verformen wird, ob ein Roboter gegen ein Hindernis stoßen wird oder wie ein Auto unter verschiedenen Wetterbedingungen fahren wird, vom Simulator gelöst werden.
Die dritte Kategorie ist der "Planner". Er befasst sich nicht damit, wie die Welt aussieht oder wie sie funktioniert, sondern mit der Frage: Was sollen wir als nächstes tun?
Für einen Roboter muss er entscheiden, ob er als nächstes vorwärts gehen, nach links drehen oder nach etwas greifen soll; für ein Fahrerassistenzsystem muss es entscheiden, wann es bremsen, wann es die Fahrspur wechseln und wann es überholen soll.
Die Ausgabe des Planners ist die Handlung selbst, daher ist er auch ein wichtiger Bindeglied zwischen Wahrnehmung und Handlung.
Im Gegensatz dazu können die "großen Sprachmodelle" die Probleme im Zusammenhang mit der räumlichen Intelligenz nicht lösen. Nehmen wir noch einmal das Beispiel des Kindes, das einen Becher am Tischrand sieht. Wir können das große Sprachmodell fragen und es bitten, eine Vorhersage zu treffen. Seine Schlussfolgerung könnte richtig sein, z. B. dass der Becher fallen und das Wasser verschütten wird. Aber diese Antwort basiert nur auf den hinterlegten Daten und der Trainierten, nur darauf, dass es in mehreren Trainingseinheiten diese Ergebnisse gelernt hat.
Was die großen Sprachmodelle lernen, sind nur statistische Regeln zwischen Texten.
Was aber tatsächlich in der physischen Welt passiert? Das, was die Weltmodelle versuchen, sind die statistischen Regeln zwischen Raum und Zeit.
Wenn ein Glasbecher vom Tischrand fällt, könnte das große Sprachmodell basierend auf einer großen Menge an bisher gesehenen Texten antworten: "Der Becher wird zerbrechen"; das Weltmodell hingegen würde intern die Materialeigenschaften, das Gewicht, die Geschwindigkeit, die Kräfte und den Kollisionsprozess des Bechers simulieren, bevor es das endgültige Ergebnis ableitet.
Das erste ist eher eine statistische Schlussfolgerung, das zweite eher eine physikalische Simulation.
Viele Forscher beginnen, diese beiden Konzepte als "Sprachintelligenz" (Language Intelligence) und "physikalische Intelligenz" (Physical Intelligence) zu bezeichnen. Ihre Beziehung ist keine Konkurrenz, sie können sich nicht gegenseitig ersetzen, sondern sind eher parallel zueinander.
Fei-Fei Li schreibt am Ende ihres Artikels: "Sprache ermöglicht es Maschinen, über die Welt zu sprechen. Weltmodelle werden es Maschinen schließlich ermöglichen, die Welt zu verstehen, sich vorzustellen, zu schließen und mit ihr zu interagieren."
Die großen Sprachmodelle haben der KI den Zugang zur digitalen Welt ermöglicht. Die Weltmodelle hingegen versuchen, die Tore zur realen Welt zu öffnen.
Weltmodelle existieren bereits seit langem,
aber erst jetzt werden sie definiert?
Die Förderung der räumlichen Intelligenz und der Weltmodelle ist nicht so einfach.
Um ein Weltmodell für das Beispiel des "verschütteten Wassers in einem Becher" zu erstellen, muss man die Materialeigenschaften, das Gewicht, die Geschwindigkeit, die Kräfte und den Kollisionsprozess des Bechers simulieren. Aber diese realen Daten aus der physischen Welt sind nicht vollständig in der Computermwelt aufgezeichnet.
Ohne genügend Daten kann man nicht simulieren, wie das Wasser im Becher fließt. Also ist dieser Weg noch lang und schwer.
Allerdings haben die Menschen nicht erst jetzt damit begonnen.
Vor Fei-Fei Lis Neuauflage des Begriffs "Weltmodelle" haben die Menschen bereits ähnliche Dinge getan. Mit anderen Worten, der Grund, warum das Konzept der Weltmodelle heute so viel Diskussionen auslöst, ist nicht, dass es plötzlich erfunden wurde, sondern dass viele Fähigkeiten, die ursprünglich in verschiedenen Branchen und Disziplinen verteilt waren, zum ersten Mal in einem gemeinsamen Rahmen diskutiert werden.
Der größte Beitrag von Fei-Fei Lis Artikel ist, dass er eine einheitliche Klassifizierungsmethode für diese bisher voneinander unabhängigen Technologien bietet. Nach Fei-Fei Lis Definition gehört der Prozess der Erstellung des Weltzustands, der Vorhersage zukünftiger Zustände und der Ableitung von Handlungskonsequenzen im Wesentlichen in den Bereich der Weltmodelle.
Viele Fachleute scherzen: "Wir haben die Welt schon seit Jahrzehnten simuliert, und jetzt hat endlich die KI-Szene unseren Wert erkannt."
Beispielsweise helfen Ingenieursimulationssoftware Unternehmen bei der Simulation von Strömungen, Flugzeugen, Motoren und Strukturanalysen. Ohne vorherige Simulation in einem Computer wäre es unmöglich, zu untersuchen, ob die Flügel eines Flugzeugs sich beim Start verformen, ob ein Motor unter extremen Temperaturen ausfällt oder ob eine Brücke bei starkem Wind stabil bleibt.
Das Gleiche gilt für das Gebiet des Digitalen Zwillings. Hier werden virtuelle Fabriken, Städte und Produktionslinien erstellt.
Der Unterschied besteht darin, dass die früheren Simulatoren stark von manueller Modellierung abhängen. Ingenieure müssen die Baumaße, die mechanische Struktur, die Materialparameter und verschiedene physikalische Regeln manuell eingeben und dann Schritt für Schritt eine digitale Welt aufbauen.
Was die KI heute versucht, ist jedoch etwas anderes. Vielleicht braucht man nur ein Video aufzunehmen, und das Modell kann automatisch einen dreidimensionalen Raum mit geometrischer Struktur und physikalischen Eigenschaften generieren. Deshalb beginnen viele Investmentinstitute, sich für Weltmodelle zu interessieren. Das eigentliche Neue ist nicht die Simulation selbst, sondern dass die KI den Simulationsprozess übernimmt.
Die "Renderer" in Fei-Fei Lis Definition können sogar als eine etablierte Branche angesehen werden. Bekannte Produkte wie Midjourney, Sora und Veo gehören im Wesentlichen zu den Renderern. Sie sind gut darin, die Frage "Wie sieht die Welt aus?" zu beantworten. In Bezug auf die Effekte sind sie so fortgeschritten, dass es für normale Benutzer schwierig ist, zu unterscheiden, welche Bilder aus der Realität stammen und welche von der KI generiert wurden.
Nach Fei-Fei Lis Klassifizierung haben die Renderer jedoch eine natürliche Beschränkung: Sie lösen das Problem, "wie es aussieht", aber verstehen nicht unbedingt, "was es tatsächlich ist". In einer wunderschönen KI-generierten Stadt können die räumlichen Beziehungen zwischen den Gebäuden unlogisch sein, und die physikalischen Regeln mögen nicht gelten.
Fei-Fei Li betont in ihrem Artikel ständig die Wichtigkeit der Simulatoren. Denn für Roboter, Fahrerassistenzsysteme und industrielle Systeme reicht es nicht aus, nur visuelle Realität zu haben. Sie brauchen eine Welt, die berechnet, abgeleitet und verifiziert werden kann.
Der Planner ist ebenfalls kein neues Phänomen. Die Robotikbranche beschäft