Fei-Fei Lis Manifest der Weltmodelle
„Die Welt ist alles, was der Fall ist.“
1921 schrieb Ludwig Wittgenstein diesen berühmten Satz in seinem Tractatus logico - philosophicus. Ein Jahrhundert später zitierte Fei - Fei Li, eine führende Persönlichkeit in der Künstlichen Intelligenz, diesen Satz und machte ihn zum Einstieg ihres neuesten technologischen Blogs.
Im Gebiet des Deep Learning hat man sich in den letzten drei Jahren daran gewöhnt, dass die KI in Bezug auf Sprache übermächtig ist. Dies begann damit, dass ChatGPT Maschinen Fähigkeiten verlieh, die in Bezug auf Ausdruck, Programmierung und logisches Denken die Menschen weit übertreffen.
Hinter dem digitalen Wunder wird jedoch oft ein Blindfleck übersehen: Maschinen können über die Welt sprechen, verstehen aber die physikalische Natur der Welt überhaupt nicht. Der von Fei - Fei Li veröffentlichte Blog wirkt wie eine kalte Dusche.
Heute, wo generative KI zu einem unverzichtbaren Werkzeug weltweit geworden ist, wird die Definition des Begriffs „Weltmodell“ in der Branche immer verwirrender. Ob bei Videoerzeugung oder körpergebundener Intelligenz: Alle Unternehmen kämpfen um die Erklärungsmacht dieses Begriffs.
Nachdem Fei - Fei Li diesen Blog veröffentlichte, glaubten viele, dass sie versuche, die Definition des Begriffs „Weltmodell“ zurückzuerobern. Im Gegenteil, denke ich, will Fei - Fei Li damit eine Erklärung abgeben: Die Welt besteht nicht aus Sprache, sondern aus strengen physikalischen Raum - und Zeitgesetzen.
Damit Maschinen wirklich in die physische Welt der Menschen eintreten können, müssen sie sich aus der Komfortzone der Textstatistik befreien und stattdessen die Reflexion von Licht, die Trägheit von Objekten und die Logik von Kollisionen verstehen. Dies ist nicht nur ein Paradigmenwechsel in der Technologie, sondern auch ein unvermeidlicher Schritt für die KI auf dem Weg zur körpergebundenen Intelligenz.
01
Es wird eine Klassifikation benötigt
Es muss zugegeben werden, dass im Lexikon der KI der Begriff „Weltmodell“ zu einem allumfassenden Pronomen geworden ist. Jedes Projekt, das sich mit Bildgenerierung und Umgebungsimulation beschäftigt, scheint damit in Verbindung zu stehen. Diese Vageheit rührt von den vielfältigen Anforderungen an die Definition der „Welt“ her.
Wenn eine Technologie erst anfängt, gibt es natürlich keine einheitlichen Vorschriften, die sie in enge Grenzen pressen. Die Verwirrung bei der Definition des Begriffs „Weltmodell“ ist in der Geschichte auch nicht ungewöhnlich. Wenn die griechischen Philosophen darüber stritten, ob die Welt aus Wasser, Feuer oder unteilbaren Atomen bestehe, suchten sie eigentlich den Grundstein für ihre Argumentation.
Das gleiche Problem gibt es auch in der KI - Branche: Wie definiert man ein Videoerzeugungsmodell, dessen Ergebnisse optisch äußerst realistisch erscheinen, aber physikalisch unmöglich sind? In ihrem Blog erwähnt Fei - Fei Li eine alte und solide Definitionsgrundlage: den teilweise beobachtbaren Markov - Entscheidungsprozess (POMDP).
Dies ist auch das Kernaxiom des Mechanismus des Verstärkungslernens. Es zeigt die ewige Schleife auf, in der ein Agent mit der physischen Welt interagiert: Der Agent setzt eine Aktion (Action) um, was zu einer Veränderung des Weltzustands (State) führt. Der Agent hat jedoch kein gottgleiches Sehvermögen und kann nur durch Beobachtung (Observation) eine lokale Wahrnehmung der Realität aufbauen.
Ein Weltmodell ist im Wesentlichen ein abstraktes Modell der Welt, das die Maschine in ihrem „Gehirn“ aufbaut, um in dieser Schleife zu überleben. Wenn einer der Schritte in dieser Schleife nicht klar definiert ist, ist das sogenannte Weltmodell nichts anderes als eine blinde Anhäufung von Pixeln.
02
Die drei Säulen für das Aufbauen von Intelligenz
Diese Schleife klingt einfach, und die Funktion jedes Schritts ist leicht zu verstehen. Bei genauerer Betrachtung gibt es jedoch unzählige Details mit unklaren Definitionen. Um diese Verwirrung zu erklären, hat Fei - Fei Li die drei Kernkomponenten des Weltmodells herausgearbeitet. Sie sind sowohl eine technische Klassifikation als auch die drei Säulen für die KI auf dem Weg zur körpergebundenen Intelligenz.
1. Renderer
Die Kernlogik des Renderers ist die optische Plausibilität. Seine Ausgabe besteht aus Pixeln, und er bemüht sich, dass das Bild für den Menschen natürlich, zusammenhängend und schön erscheint.
Dies ist derzeit der am besten etablierte kommerzielle Bereich. Bekannte Videoerzeugungsmodelle wie OpenAIs Sora und ByteDance Seedance 2.0 sowie Bildgenerierungsmodelle wie OpenAIs GPT - image - 2 und Google Nano Banana 2 sind im Wesentlichen die präzisesten visuellen Wahrscheinlichkeitsmaschinen. Sie lernen aus Hunderten von Millionen von Internetbildern und - videos und verstehen schließlich die Verteilungsgesetze von Licht und Formen.
Trotz des scheinbar schönen Bildes weist Fei - Fei Li darauf hin, dass es einen Preis zu zahlen gibt. Obwohl diese Spitzenmodelle wunderschöne Gebäude generieren können, stürzen die Gebäude in der Regel sofort ein, wenn man versucht, in ihrer generierten physikalischen Struktur zu interagieren, da diese fehlende Stützstrukturen aufweist. Mit anderen Worten, sie verstehen nicht, was „Stütze“ bedeutet, und generieren nur das, was die Zuschauer „sehen“, nicht das, wie die Welt „ist“.
2. Simulator
Der Simulator strebt genau die strukturelle Treue an, die der Renderer fehlt. Er kümmert sich überhaupt nicht darum, ob ein Video gut aussieht. Sein einziges Anliegen ist, dass die Welt den physikalischen Gesetzen folgt. Wenn ein Simulator ein ganz gewöhnliches Glas ausgibt, muss es auch die Massenverteilung des Glases, den Reibungskoeffizienten des Materials, die Reaktion auf die Schwerkraft und die physikalischen Grenzen bei Kollisionen enthalten.
Erst durch den Simulator wird der Inhalt in einem Video realistisch. Im heutigen Trend der KI wird der Simulator jedoch sowohl stark unterschätzt als auch oft ignoriert.
Am Beispiel des Glases wird deutlich, dass der Simulator die „Kunstdiskussion“ in eine „Physikforschung“ verwandelt. Um einen Simulator aufzubauen, der strikt den physikalischen Gesetzen folgt, sind Rechenressourcen und Kosten für die Annotation kaum vorstellbar hoch. Für Roboter ist optische Schönheit fast eine nutzlose Eigenschaft. Physikalische Genauigkeit ist alles.
Wenn der Simulator nicht präzise genug ist, können die Roboter, die darin trainiert werden, niemals in die reale Welt eintreten. Die Sim - to - Real - Herausforderung besteht tatsächlich. Testaktionen, die im Labor zu 100 % funktionieren, können durch die geringste Reibung in der realen Welt den Roboter völlig lahmlegen. Dies ist das sogenannte „Moravec - Paradoxon“.
3. Planner
Der Planner ist für die Ausgabe von Aktionen zuständig. Als Verbindungspunkt zwischen Wahrnehmung und Rückmeldung muss er die zentrale Frage „Was soll als nächstes getan werden?“ beantworten, für die es nie eine eindeutige Lösung gibt. In Fei - Fei Lis Rahmenwerk ist dies auch der letzte Schritt in der gesamten „Wahrnehmung - Aktion“ - Schleife und zugleich der Bereich mit den größten vorausschauenden Herausforderungen.
Alle derzeitigen visuelle - sprachliche - aktionale (VLA) Modelle versuchen, das System dazu zu bringen, Entscheidungen in einer unstrukturierten, komplexen Welt zu treffen. Der Planner macht nicht nur Vorhersagen über die Zukunft, sondern wählt auch aus unzähligen Möglichkeiten den Weg aus, der am besten das Ziel erreicht. Er ist der Schlüssel dafür, dass Maschinen von „Beobachtern“ zu „Tätern“ werden.
03
Der Schlüssel für Milliarden von Dollar
Unter den drei von Fei - Fei Li vorgeschlagenen Klassifikationen sind die Modelle, die dem Renderer und dem Planner entsprechen, bereits relativ verbreitet. Der verbleibende Simulator ist daher logischerweise der schwierigste Schritt. Fei - Fei Li hat auch eine sehr einsichtreiche Einschätzung abgegeben: Der Simulator ist die Bindeglied zwischen Rendering und Planung und der zentrale Schlüssel für das gesamte System.
Das Unternehmen, das im Bereich des Simulators am besten abschneidet, ist nicht OpenAI, Anthropic oder Google, sondern NVIDIA unter der Leitung von Jensen Huang.
NVIDIAs Omniverse behauptet, dass es das Billionen - Projekt der digitalen Zwillingsabbildung unterstützen kann. Der Grund dafür ist, dass es das Wesen des Simulators versteht. Auf NVIDIAs Plattform werden die Abläufe in Fabriken, Lieferketten und Lagern vollständig digital abgebildet. Für die Industrie ist dies nicht nur eine optische Demo, sondern die Kerninfrastruktur für die Produktivität.
Dies ist keine Übertreibung, sondern eine Milliarden - Dollar - Chance, die für alle sichtbar ist.
Von der virtuellen Visualisierung in der Bauindustrie über die Molekulardynamiksimulation in der Pharmaindustrie bis hin zum Szenariotest im autonomen Fahren. Diese Branchen fehlt es nicht an lebendigen Bild - und Videogenerierungsmodellen, sondern an einem hochgradig realitätsgetreuen Simulator. Es ist keine Übertreibung zu sagen, dass die Fähigkeit, die physische Welt zu simulieren, den Vorzugseintritt in die KI - Industrialisierung bedeutet.
Aber die Schwierigkeiten in der Realität führen dazu, dass es in diesem Bereich fast keine technischen Optimisten gibt. Fei - Fei Li gestand auch, dass die Kluft immer noch sehr groß ist.
Zunächst einmal ist das Problem der Daten für die körpergebundene Intelligenz, auf das wir bereits wiederholt hingewiesen haben, weiterhin vorhanden. Es gibt unzählige Videodaten im Internet, aber 3D - Daten mit einer klaren geometrischen Struktur, Materialeigenschaften und physikalischen Rückmeldungen sind extrem rar.
Zweitens ist die Anwendung von generativer KI immer mit unsichtbaren Risiken verbunden. Die von KI generierten geometrischen Modelle können höchstens optisch perfekt sein, sind aber in der physikalischen Struktur oft unlogisch. Zum Beispiel kann ein Glas in einem Tisch verschmelzen, oder Objekte verlieren beim Zusammenstoß ihre Raumerfahrung. Menschen beschreiben diese seltsamen Phänomene mit dem einfachen Begriff „Clipping“, aber in der realen industriellen Anwendung bedeutet dies eine Katastrophe.
04
Der Weg zu einem einheitlichen Weltmodell
Trotz all der Schwierigkeiten hat Fei - Fei Li eine positive Einschätzung der Branchentrends abgegeben: Die Grenzen zwischen Rendering, Simulation und Planung werden immer verschwammiger.
Dies ist keine idyllische Zukunft, sondern eine Tatsache, die bereits passiert. Fei - Fei Lis World Labs - Team glaubt nach seiner Erforschung, dass die Menschen auf dem Weg zu einem einheitlichen Basismodell sind. In diesem Rahmenwerk können Einbildungskraft und Logik zusammengeführt werden.
Zukünftige Modelle werden nicht aus der Addition und dem Zusammenfügen einzelner Funktionen bestehen, sondern aus einer einheitlichen neuronalen Netzwerkbasis. Sie kann ein realistisches Szenario durch Gauss - Sputtering rendern und gleichzeitig kollisionsfähige Gitter für die physikalische Engine generieren. Einfach ausgedrückt, wird das einheitliche Basismodell einen nahtlosen Übergang zwischen dem visuellen Modell, das der Mensch benötigt, und dem Zustandsmodell, das die physikalische Engine benötigt, ermöglichen.
Aus einem anderen Blickwinkel betrachtet sind die traditionellen Modelle statisch, während die zukünftigen Weltmodelle eine stärkere Interaktivität aufweisen werden. Der Renderer wird nicht länger ein passiver Videoerzeuger sein, sondern beginnt zunehmend, Handlungsbefehle zu akzeptieren. Der Simulator wird editierbarer und steuerbarer, und der Planner kann logisch denken und seine Strategie automatisch an die Umweltänderungen anpassen.
05
Die lange Kurve der räumlichen Intelligenz
Abschließend betrachten wir die Frage auf einer makroskopischen Ebene: Warum ist alles, was mit dem Begriff „Weltmodell“ zu tun hat, so wichtig?
Nach Ansicht von Fei - Fei Li hat man in den letzten Jahrzehnten in der KI - Forschung immer nach dem Schlüssel gesucht, der Maschinen den Zugang zur physischen Welt ermöglicht. Jetzt haben wir Sprachmodelle, die gut in der Logik sind. Was wir als Nächstes brauchen, sind Modelle, die mit Raum umgehen können. Der Kernpunkt der räumlichen Intelligenz besteht darin, wie Maschinen mit der physischen Welt, in der sie sich befinden, interagieren können.
Bei diesem Wettlauf geht es nicht darum, wer mehr Rechenleistung hat, sondern darum, wer die digitalen Standards für die physische Welt definieren kann.
Das Weltmodell ist keine einfache Algorithmusoptimierung, sondern eine bahnbrechende Evolution der KI.
„Sprache gibt Maschinen die Fähigkeit, über die Welt zu sprechen, während das Weltmodell die Art und Weise ist, wie Maschinen schließlich die physische Welt verstehen, sich vorstellen, daraus schließen und mit ihr interagieren können.“
Jeder in dieser Zeit geht von der Phase des Gesprächs über die Welt in eine neue Ära, in der wir die Welt wirklich verstehen und neu gestalten.
Trotzdem ist das Weltmodell nur ein Zwischenschritt auf dem Weg zur Künstlichen Allgemeinintelligenz (AGI), und die von Menschen geschaffene KI ist von einem echten „Weltmodell“ noch sehr weit entfernt. Hier ist ein etwas extremer Ansatz von Yann LeCun, einer anderen führenden Persönlichkeit in Bezug auf Weltmodelle, der sich lohnt, geteilt zu werden:
Im besten Fall brauchen Maschinen noch fünf bis zehn Jahre, um die Intelligenz eines kleinen Hundes zu erreichen.
Dieser Artikel stammt aus dem WeChat - Account „Silicon - Base Starlight“, Autor: Si Qi. 36Kr hat die Veröffentlichung mit Genehmigung durchgeführt.