Der Aufstieg der Weltmodelle lässt die Debatte um die künstliche Intelligenzroute erneut tobend werden.
Die unentschlüsselten Evolutionsgeheimnisse im menschlichen Gehirn könnten möglicherweise die Zukunft der KI bestimmen.
In letzter Zeit wurde bekannt, dass der Turing-Preisträger und Chef-KI-Wissenschaftler von Meta, Yann LeCun, kündigen und ein eigenes Unternehmen gründen will. Er wird das Konzept der "Weltmodelle" (World Models) als technische Grundlage nutzen und seine langjährige Forschung fortführen. Diese Entscheidung hat schnell die Aufmerksamkeit der globalen KI-Community erregt.
Die "Großmutter der KI", Fei-Fei Li, hat einen ausführlichen Artikel auf ihrer sozialen Plattform veröffentlicht, in dem sie die Rechenleistungsschranken und kognitiven Beschränkungen der aktuellen Large Language Models (LLM) kritisiert. Sie argumentiert, dass die Zukunft der KI nicht in der unbegrenzten Erhöhung der Modellparameter liegt, sondern in der Einbindung von "räumlicher Intelligenz" (Spatial Intelligence) – eine grundlegende kognitive Fähigkeit, die Menschen von Geburt an besitzen und die bereits im Säuglingsalter erwacht. Diese Fähigkeit ist der Schlüssel zur Entwicklung einer allgemeinen Künstlichen Intelligenz (AGI).
Am 13. November hat das von Fei-Fei Li gegründete World Labs sein erstes Produkt, Marble, vorgestellt. Das Produkt basiert auf einem multimodalen Weltmodell und kann aus einzelnen Bildern, Videoclips oder Textbeschreibungen dauerhafte dreidimensionale digitale Zwillinge von Räumen generieren. Dadurch wird eine entscheidende Grundlage für die räumliche Intelligenz geschaffen.
Wenn die KI von der reinen virtuellen Welt in die physische Realität eintritt, erfordern die Komplexität und der dynamische Austausch in der realen Welt ein revolutionäres kognitives Modell, um die bestehenden Probleme zu lösen.
Eine Disputation über die Natur der KI
Yann LeCun hat 12 Jahre lang bei Meta gearbeitet. Es ist kein Geheimnis, dass seine technologischen Visionen von dem von Mark Zuckerberg favorisierten Ansatz der Large Language Models abweichen.
Er hat öffentlich erklärt: "Large Language Models werden niemals in der Lage sein, menschliche logische Denkfähigkeiten zu entwickeln." Diese Aussage geht auf das Kernproblem der KI-Entwicklung zurück: Soll man Maschinen trainieren, die besser im Chatting sind, indem man sie mit Textdaten füttert, oder soll man die KI wie ein Baby lernen lassen, physikalische Gesetze durch visuelle Beobachtung zu verstehen?
Seit jeher sind Large Language Models von der Qualität und Größe der Trainingsdaten abhängig. Ihre kognitiven Grenzen werden von diesen "unsichtbaren Mauern" der Trainingsdaten eingeschränkt.
Datenverzerrungen können die kognitiven Verzerrungen des Modells festigen, Rauschen in den Daten kann die Genauigkeit der logischen Schlussfolgerungen verringern, und die Verzögerung der Aktualität der Daten kann das Modell in einer "Informationszeitdifferenz" gefangen halten, so dass es schwierig ist, die dynamische Entwicklung der realen Welt zu erfassen. Selbst wenn man die Datenmenge kontinuierlich erhöht, gerät die Parameteranhäufung in einen "Größenfluch". Der Rechenleistungsbedarf und der Nutzen steigen nicht linear, und die Grenznutzenrate nimmt stetig ab.
Das wichtigste Hindernis besteht darin, dass die kognitiven Fähigkeiten von Large Language Models auf die lineare Assoziation von Textzeichen beschränkt sind. Sie fehlt die Fähigkeit, das physische Weltgeschehen in einem dreidimensionalen Raum zu modellieren und dynamische kausale Zusammenhänge zu verstehen. Sie können die räumliche Topologie, die Eigenschaften von Objekten und die Bewegungsgesetze der realen Welt nicht genau abbilden, und es ist ihnen auch schwer, die Echtzeit-Interaktionslogik von "Handlung - Rückmeldung" zu verstehen. Dies führt zu häufigen kognitiven Brüchen, wenn das Modell in verschiedenen Szenarien eingesetzt wird.
Beispielsweise kann Yann LeCun nicht durch Textdeskriptionen ein dreidimensionales Szenario genau wiederherstellen, noch kann er auf der Grundlage realer Beschränkungen Entscheidungen treffen, die den physikalischen Grundlagen entsprechen.
Dieser von Textdaten getriebene Ansatz wird es letztendlich nicht ermöglichen, die "Symbolfalle" zu verlassen und den kognitiven Weg des Menschen nachzuahmen, der abstraktes Wissen aus konkreten Erfahrungen gewinnt.
Wenn die KI von der virtuellen Interaktion in die praktische Anwendung in der physischen Welt übergehen und von der Reaktion auf einzelne Aufgaben zur autonomen Entscheidungsfindung in komplexen Szenarien evolvieren muss, ist das rein textgesteuerte Modell nicht mehr in der Lage, die Anforderungen an die Entwicklung einer allgemeinen Künstlichen Intelligenz zu erfüllen. Nur wenn man sich von der Konkurrenz um die Datenmenge verabschiedet und sich auf ein strukturiertes Verständnis der Welt konzentriert, kann man den nächsten technologischen Sprung erreichen.
Die Anhänger der "Weltmodell-Strömung" sind sich einig, dass Large Language Models grundlegende Beschränkungen haben. Fei-Fei Li betont, dass Sprache ein abstraktes Signal ist, das von Menschen für die Kommunikation geschaffen wurde. In der Natur gibt es keine Texte. Wenn die KI sich nur auf Texte stützt, kann sie die Gesetze der physischen Welt nicht wirklich verstehen und wird zu einem "Meister der Worte im Dunkeln".
Yann LeCun hat die Large Language Models mehrfach kritisiert, indem er sagte, dass sie nur leistungsstarke Textdatenbanken sind und keine echte Verständnisfähigkeit für die reale Welt haben. Weltmodelle hingegen versuchen, durch hochdimensionale Wahrnehmungsdaten direkt Modelle zu erstellen, um die Sprachumwandlung zu umgehen. Sie können physikalische Gesetze im latenten Raum ableiten und Handlungsanweisungen ausgeben, um das Umfeld zu verstehen und aktive Schlussfolgerungen zu ziehen.
So wie menschliche Babys die Schwerkraft verstehen können, ohne Enzyklopädien lesen zu müssen – sie lernen, indem sie beobachten, wie ein Glas herunterfällt, und indem sie die Oberfläche eines Tisches berühren. Dies ist der Grund, warum LeCun Weltmodelle bevorzugt: Die zeitlichen und räumlichen Informationen in dynamischen Videodaten sind viel näher an der Essenz der Intelligenz als abstrakte Texte.
Beispielsweise enthält der Moment, in dem ein Ball Bausteine umwirft, Informationen über die Härte des Materials und verbirgt auch mechanische Gesetze. Das, was Large Language Models aus Wikipedia über das "Newtonsche Gesetz" gelernt haben, ist nur eine statistische Assoziation von Symbolen. Eine Studie von MIT hat gezeigt, dass beim Verarbeiten räumlicher Informationen bestimmte neuronale Netzwerke im Gehirn aktiviert werden – diese biologische Instinktfähigkeit fehlt derzeit den rein textbasierten KIs.
Der Begriff "Word Models" tauchte erstmals 2018 in einem Artikel von Jurgen auf der renommierten Konferenz für maschinelles Lernen, NeurPS, auf. Der Artikel mit dem Titel "Recurrent World Models Facilitate Policy Evolution" vergleicht Weltmodelle mit dem mentalen Modell (Mental Model) des menschlichen Gehirns in der Kognitionswissenschaft. Es wird argumentiert, dass das mentale Modell an der menschlichen Kognition, logischen Schlussfolgerung und Entscheidungsfindung beteiligt ist, wobei die wichtigste Fähigkeit die kontrafaktische Schlussfolgerung ist.
Dieses Modell gibt der KI die Fähigkeit, Vorhersagen zu treffen und Pläne zu entwickeln, wie beispielsweise das Verständnis des Bruchprinzips von Objekten oder die Vorhersage der Fahrtrichtung von Fahrzeugen. Es bildet die Grundlage für die Embodied Intelligence, den autonomen Verkehr und den Menschen-Roboter-Kooperationsroboter. Fei-Fei Li fasst es zusammen als die Verbesserung von "Sehen" zu "Schlussfolgern", von "Wahrnehmen" zu "Handeln" und von "Vorstellen" zu "Schaffen".
In den letzten Jahren hat die Forschung an Weltmodellen dank der fortschreitenden Technologie des Deep Learning und der zunehmenden Rechenkapazität erhebliche Fortschritte gemacht.
Beispielsweise hat DeepMind 2019 den Algorithmus MuZero veröffentlicht, Yann LeCun 2022 das JEPA - Repräsentationsmodell vorgeschlagen, und 2024 wurden das Videogenerierungsmodell Sora und das Stadtumgebungsgenerierungsmodell UrbanWord entwickelt. All diese Fortschritte haben die Anwendung von Weltmodellen in verschiedenen Bereichen vorangetrieben.
Insgesamt ist ein Weltmodell ein generatives KI - Modell, das die physische Welt simulieren kann und auf der Grundlage von Eingabedaten wie Texten, Bildern, Videos und Bewegungen Videos generieren und zukünftige Zustände vorhersagen kann. Es integriert verschiedene semantische Informationen wie visuelle, auditive und sprachliche Informationen und versteht und prognostiziert Phänomene, Verhaltensweisen und kausale Zusammenhänge in der realen Welt mithilfe von maschinellem Lernen, Deep Learning und anderen mathematischen Modellen.
Einfach ausgedrückt, ist ein Weltmodell wie das "innere Verständnis" und die "mentale Simulation" der realen Welt durch ein KI - System. Es kann nicht nur die eingegebenen Daten verarbeiten, sondern auch Zustände abschätzen, die nicht direkt wahrgenommen werden können, und die Veränderungen zukünftiger Zustände vorhersagen.
Dieses Modell gibt der KI ähnliche kognitive und logische Fähigkeiten wie dem Menschen, so dass es in einer virtuellen "Gedankenwelt" simulieren und planen kann und besser mit der Komplexität der realen Welt umgehen kann.
Im Gegensatz zu den allgemeinen Large Language Models verstehen Weltmodelle die reale Welt nicht einfach durch die verfügbaren Sprache, Bilder und Videos, sondern lernen die physikalischen Regeln der realen Welt anhand einer großen Menge von Daten und führen kausale Schlussfolgerungen durch, um zukünftige Zustände vorherzusagen und zu generieren, die den realen Gesetzen entsprechen. Das ultimative Ziel besteht darin, die Künstliche Intelligenz an die reale Welt anzupassen, anstatt an eine theoretische Welt, und die KI zu einer physikalischen KI zu entwickeln.
Weltmodelle haben drei Kernmerkmale:
Erstens, interne Repräsentation und Vorhersage. Weltmodelle können hochdimensionale ursprüngliche Beobachtungsdaten (wie Bilder, Geräusche, Texte usw.) in niedrigdimensionale latente Zustände kodieren, um eine kompakte und effektive Repräsentation der Welt zu bilden. Auf dieser Grundlage können sie die Zustandsverteilung im nächsten Moment vorhersagen, wenn der aktuelle Zustand und die Aktion gegeben sind, um so zukünftige Ereignisse vorausschauen zu können.
Zweitens, physikalisches Verständnis und kausale Zusammenhänge. Weltmodelle verfügen über grundlegende physikalische Verständnisfähigkeiten und können die Gesetze der physischen Welt wie Schwerkraft, Reibungskraft, Bewegungsbahnen usw. verstehen und simulieren. Dies ermöglicht es ihnen, bei der Bearbeitung von Problemen, die mit der physischen Welt zusammenhängen, genauere und realistischere Vorhersagen und Entscheidungsunterstützung zu liefern.
Drittens, kontrafaktische Schlussfolgerungsfähigkeit. Weltmodelle können nicht nur auf der Grundlage vorhandener Daten vorhersagen, sondern auch hypothetische Überlegungen anstellen, d. h. kontrafaktische Schlussfolgerungen ziehen. Beispielsweise können sie auf Fragen wie "Was würde passieren, wenn die Umweltbedingungen sich ändern?" antworten, um so mehr Möglichkeiten und Ideen für die Lösung komplexer Probleme zu bieten.
Normalerweise besteht ein vollständiges Weltmodell aus drei Komponenten: dem Zustandsrepräsentationsmodell, dem dynamischen Modell und dem Entscheidungsmodell.
Das Zustandsrepräsentationsmodell hat die Aufgabe, die ursprünglichen Beobachtungsdaten (wie hochdimensionale Bilder, Sensordaten usw.) in niedrigdimensionale latente Zustände zu komprimieren, um die wichtigen Informationen zu behalten und das Rauschen zu filtern. Häufig werden Techniken wie der Variational Autoencoder (VAE) verwendet. Diese Komprimierungs - und Darstellungsmethode ermöglicht es dem Modell, komplexe Dateninputs effizienter zu verarbeiten und zu verstehen.
Das dynamische Modell ist der Kernteil des Weltmodells und wird verwendet, um die Zustandsverteilung der Umwelt im nächsten Moment vorauszusagen, wenn der aktuelle latente Zustand und die Aktion gegeben sind. Zyklische neuronale Netzwerke (RNN), Long - Short - Term - Memory - Netzwerke (LSTM) oder stochastische Zustandsraummodelle (SSM) werden normalerweise verwendet, um die Zustandsübergangsregeln zu lernen und so ein implizites Verständnis der physikalischen Gesetze der Welt aufzubauen.
Das dynamische Modell bietet einem Agenten eine virtuelle "Sandkiste", in der er simulieren und experimentieren kann, ohne in der realen Welt teure Fehlversuche machen zu müssen.
Auf der Grundlage der Zustandsvorhersage verwendet das Entscheidungsmodell Methoden wie die Modellprädiktionssteuerung (MPC) oder Deep Reinforcement Learning, um die optimale Handlungssequenz zu planen, um ein Ziel zu erreichen. Es bewertet den Wert oder das Belohnungssignal verschiedener Handlungen anhand der vorhergesagten zukünftigen Zustände, um den Agenten bei der Auswahl einer sinnvollen Aktion in der Umwelt zu leiten.
Der Auslöser für den nächsten Sprung der KI
In den letzten zehn Jahren hat jeder Sprung der KI von einer Veränderung der Eingabemethode ausgegangen: Texte haben zur Sprachintelligenz geführt, Bilder haben die visuelle Intelligenz hervorgebracht. Jetzt ermöglichen Weltmodelle es der KI, die reale Welt zu verstehen, eine dynamische Welt mit Zeit, Raum und kausalen Zusammenhängen.
Fast alle Pioniere der Künstlichen Intelligenz sind sich einig, dass Weltmodelle für die Entwicklung der nächsten Generation von KI von entscheidender Bedeutung sind. Auch die Technologiegiganten betrachten Weltmodelle als den Schlüsselpunkt in der Entwicklung der KI.
In den letzten Monaten haben mehrere Technologieunternehmen ihre Fortschritte im Bereich der Weltmodelle bekanntgegeben, was die Aufmerksamkeit auf diesen Bereich lenkt.
Das Genie - Modell von Google DeepMind hat sich in ander