StartseiteArtikel

Die Finanzierung von Weltmodellen ist furchtbar aggressiv: Ist es das Ende der KI?

铅笔道2026-02-10 16:08
Ist das Weltmodell das Endspiel der Künstlichen Intelligenz?

Im vergangenen November hat die Professorin Fei-Fei Li von der Stanford University ein Konzept vorgestellt: das Weltmodell, das in der KI-Branche breite Diskussionen ausgelöst hat.

Zur gleichen Zeit ist der Schätzwert des Unternehmens von Fei-Fei Li, World Labs, auf 5 Milliarden US-Dollar gestiegen. Auch der Schätzwert des Wissenschaftlers Yann LeCun, der ebenfalls an großen Modellen interessiert ist, übersteigt 3 Milliarden US-Dollar.

Damit ergibt sich eine zentrale Frage: Ist das Weltmodell das Ende der Künstlichen Intelligenz? In diesem Artikel wird diese Frage untersucht. Die Teilnehmer an dieser Diskussion sind wie folgt:

Wichtige Highlights im Voraus:

1. Was ist ein "Weltmodell"?

Antwort: Ein Modell, das der KI ermöglicht, die reale Welt zu verstehen und vorherzusagen. Es gibt viele Versionen, aber keine Einigkeit.

2. Warum ist das Weltmodell so beliebt?

Antwort: Es gibt starke Finanzierungen, hohe Schätzwerte und es ist für die Menschheit äußerst nützlich.

3. Ist das Weltmodell das Ende der KI?

Antwort: Möglicherweise. Die KI übernimmt die Ausführung, und die Menschen müssen nur noch an der Kreativität arbeiten.

4. Wie kann man mit einem Weltmodell Geld verdienen?

Antwort: Indem man es in ein Produkt umwandelt, wie z. B. das Gehirn einer körperlichen KI.

Weitere Highlights finden Sie in der Transkription des Roundtables.

Was genau ist ein Weltmodell?

Lin Juemin: Das "Weltmodell" ist derzeit wirklich beliebt. Man sieht, dass Yann LeCun Milliarden von US-Dollar investiert hat und auch Fei-Fei Li 5 Milliarden US-Dollar gesammelt hat. Die Schätzwerte dieser Unternehmen steigen rasant, und in China hat sich auch eine neue Welle entwickelt.

Interessanterweise gibt es scheinbar unterschiedliche Meinungen darüber, was genau ein "Weltmodell" ist.

Wang Sheng: Zunächst einmal besteht möglicherweise keine Einigkeit darüber, was ein Weltmodell ist.

Tatsächlich gibt es zwei typische Strömungen bei Weltmodellen: eine ist das Weltmodell der körperlichen KI, die andere ist das Weltmodell im digitalen Raum.

Das von uns verstandene Weltmodell simuliert nicht vollständig die reale Welt, sondern modelliert für bestimmte Bereiche oder "Welten". Beispielsweise können der medizinische Bereich, der Finanzbereich und der Rechtsbereich jeweils als eine unabhängige "Welt" betrachtet werden.

Nehmen wir den medizinischen Bereich als Beispiel. Angenommen, wir haben ein "medizinisches Weltmodell" erstellt, das den gesamten Prozess nach einer Krankheit simulieren kann. Wenn jemand an Influenza A erkrankt, können wir mithilfe dieses Modells die körperlichen Reaktionen, die Symptomänderungen und die Veränderungen der biochemischen Parameter des Patienten sehen, wenn keine Intervention erfolgt.

Wenn der Patient behandelt wird, zeigt das Modell die Wirkung der Medikamente bis zur Genesung oder Verschlechterung der Krankheit. Wir nutzen dieses Modell, um die reale "Grundwahrheit" zu erkunden.

Beispielsweise hat das Team von Tsinghua Zijing Zhikang, in das wir investiert haben, in mehr als 30, fast 40 Krankheitsdiagnosebereichen eine Diagnosequalität erreicht, die die von 97 % der Ärzte weltweit übertrifft.

Ihr Erfolg beruht darauf, dass sie mithilfe des medizinischen Weltmodells den gesamten Krankheitsverlauf simulieren können. Durch dieses Weltmodell können wir die KI schneller lernen lassen und sie sogar in kurzer Zeit Erfahrungen sammeln lassen, um ein Weltklasse-Ärzt zu werden.

Wu Wei: Wir glauben, dass man zunächst die beiden zentralen Schlüsselwörter "Simulation" und "Interaktion" verstehen muss, um die Essenz des Weltmodells zu verstehen.

"Simulation" bedeutet, dass man mithilfe von Simulationstechnologien eine virtuelle Welt erstellt, um die KI zu trainieren, zu schließen und Entscheidungen zu treffen. "Interaktion" bedeutet, dass die KI durch die Interaktion mit der Umwelt und den Menschen besser an die Veränderungen der realen Welt anpassen und darauf reagieren kann.

Von der akademischen und industriellen Entwicklung her wurde das Konzept des Weltmodells ungefähr ab 2018 vorgestellt und hat seitdem etwa sieben oder acht Jahre entwickelt. In dieser Zeit gab es hauptsächlich drei verschiedene Strömungen bei Weltmodellen:

Die erste Strömung nutzt das Weltmodell als Simulator und generiert in der Cloud eine große Menge an Simulationsdaten, die für das Training von Agenten verwendet werden. Die Omniverse- und Cosmos-Systeme von NVIDIA folgen diesem Ansatz.

Die zweite Strömung nutzt das Weltmodell als universelle Schnittstelle. Projekte wie Google's Gemini3 und das Marble-Team von Fei-Fei Li gehören zu dieser Kategorie und werden hauptsächlich für Anwendungen im Bereich Unterhaltung und digitalen Erlebnissen eingesetzt.

Die dritte Strömung, die auch unser Hauptaugenmerk ist, verleiht der KI die Fähigkeit zur räumlichen Schließfähigkeit und Vorstellungskraft, indem sie die Schließfähigkeit des Weltmodells direkt dem Gehirn verleiht. Auf diese Weise kann die KI auch ohne Kenntnis bestimmter Daten durch Schlussfolgerungen und Simulationen Roboter effizienter bei der Entscheidungsfindung und Interaktion unterstützen.

Dieser Ansatz unterscheidet sich von der traditionellen Imitationslernen, da die Imitationslernen auf der Akkumulation von Offline-Daten basiert, während wir uns mehr darauf konzentrieren, wie die KI durch ihre innere Simulationsfähigkeit neue Umgebungen vorhersagen und anpassen kann.

Wu Wei: In unserer Auffassung ist das Weltmodell ein "Grundmodell", das für die KI von Roboter nötig ist. Wir müssen die innere Kognition auf der Ebene der Bewegung und des Manipulations im physischen Raum modellieren. Dies ist unser technischer Ansatz.

Nach unserer Definition ist das Weltmodell eigentlich ein End-to-End-Modell oder kann als ein Zwei-Enden-End-to-End-Großmodell verstanden werden.

Im Vergleich dazu konzentriert sich Qianjue Technology hauptsächlich auf die Architektur des inneren Gehirns. Das heißt, das menschliche Gehirn hat mehrere Bereiche, und jeder Bereich entspricht einem kleinen Modell oder, wie es in der Agenten-Branche gängig ist, "Fähigkeiten". Die Kombination dieser kleinen Modelle mit dem obersten Modell kann eine Simulation des Gehirns mit geringerem Energieverbrauch ermöglichen.

Dies ist meine Vorstellung von beiden. Natürlich spielt auch das Team-Gen eine entscheidende Rolle. Unser Gen bestimmt, dass wir uns auf das End-to-End-Konstruieren von Modellen und die Skalierung von Daten konzentrieren.

Song Yachen: Fei-Fei Li hat kürzlich eine neue Finanzierungsrunde abgeschlossen, und der Schätzwert ihres Unternehmens hat inzwischen 5 Milliarden US-Dollar erreicht. Ich habe heimlich ihren Business Plan gelesen, in dem drei Hauptanwendungsbereiche für das von ihr definierte Weltmodell erwähnt werden:

Der erste ist die 3D-Generierung in der Unterhaltungsbranche (3D generation in entertainment);

der zweite ist die räumliche Intelligenz in XR (erweiterte Realität) und Metaverse (spatial intelligence);

der dritte ist die Robotik (robotics).

Tatsächlich wurden zunächst die ersten beiden Anwendungsbereiche bearbeitet.

Das Wichtigste, was ich sagen möchte, ist, dass ich denke, dass das Weltmodell möglicherweise tatsächlich die endgültige Lösung in der KI-Zeit ist und zwei Dinge beinhaltet:

Erstens kann das Weltmodell die Entwicklung der körperlichen Fähigkeiten unterstützen und verschiedene körperliche Szenarien verbreitern, so dass mehr Roboter menschliche Arbeit übernehmen können.

Zweitens, wenn die Arbeitskräfte befreit werden, was sollen die Menschen tun?

Von der Agrarzeit über die Industrierevolution bis zur Informationszeit haben wir zwei Merkmale festgestellt:

1. Der Glücksindex der Menschen wird immer höher, die Lebenserwartung wird länger, die Überlebensrate von Babys wird höher, und die Auswahl an Waren in den Supermärkten wird immer größer;

2. Die Arbeitszeit der Menschen wird jedoch immer länger, und es wird immer "intensiver".

In der frühen Agrarzeit war die Arbeitszeit der Menschen kurz. Mit der Entwicklung der Zeit sind wir in eine "intensivere" Gesellschaft eingetreten, insbesondere in der Informationszeit, in der die 996-Arbeitszeit (von 9 Uhr morgens bis 9 Uhr abends) zur Norm geworden ist, und die Menschen arbeiten hart für die "Segen" großer Unternehmen.

Aber das Auftauchen der KI hat alles verändert. Theoretisch sollte die KI-Zeit "intensiver" sein, aber tatsächlich scheint es nichts mehr zu geben, für das man sich "kämpfen" muss, denn Roboter können alle menschlichen Aufgaben übernehmen. Wo werden dann die Produktivität und die Arbeitskräfte hingehen?

Ich habe eine eigene Theorie, wonach die Menschen schließlich an ihrer eigenen Kreativität arbeiten müssen.

Wenn die KI die Menschen kostenlos, ohne Schwierigkeiten und in Echtzeit bei der Verstärkung ihrer Kreativität unterstützen kann, kann jeder weltweite, interaktive Erlebnisse schaffen, so wie Gott die Welt geschaffen hat, indem er die physikalischen Regeln festgelegt und alle Dinge erschaffen hat.

Wenn dieser Tag kommt, kann jeder seine eigene virtuelle Welt schaffen und sogar bessere Erlebnisse haben.

Beispielsweise ist die Schwerkraft nicht mehr auf 9,8 beschränkt. Man kann fliegen, Flügel wachsen lassen und auch verschiedene soziale Regeln, Bewertungssysteme und sogar physikalische Regeln schaffen. Die Menschen haben mehr Auswahlmöglichkeiten und können ihre Zeit in Dinge investieren, die sie wirklich mögen.

Dies wird eine Zeit sein, in der jeder für alle und alle für jeden arbeiten. Jeder kann seine Kreativität mit der KI verstärken und andere Menschen zu seiner Welt einladen.

Wenn eine solche Welt wirklich entstehen kann, dann sind wir in einer Zeit, in der wir für andere Menschen paradiesische Welten schaffen, wie Heilige, die anderen Menschen die besten Erlebnisse bieten.

Die Rolle der KI besteht darin, dass jeder wie ein Gott eine vollständige, weltweite, interaktive Erfahrung schaffen kann. Das ist der Grund, warum ich denke, dass das Weltgroßmodell für das Ende der KI so wichtig ist.

In Zukunft kann jeder wie "Ma Liang" einen göttlichen Pinsel in der Hand haben und seine Wünsche erfüllen.

Jiang Yizhou: Die frühesten Forschungen an Weltmodellen zielten hauptsächlich darauf ab, die physische Welt um uns herum zu verstehen und vorherzusagen.

So hat Newton durch die Beobachtung des fallenden Apfels die Gesetze der Gravitation abgeleitet. Ohne Weltmodell ist unsere Schließfähigkeit begrenzt, und wir können nur auf der Grundlage der beobachteten Phänomene urteilen.

Mit der fortschreitenden Forschung hat Fei-Fei Li vorgeschlagen, dass das Weltmodell nicht nur die Welt verstehen, sondern auch vorhersagen muss. Vor zehn Jahren begannen wir mit der "Video-Vorhersage", um die Bewegungsbahn von Robotern vorherzusagen. Dieser Ansatz ist für Roboter sehr nützlich.

Roboter müssen in der Realität die zukünftigen Situationen vorhersagen können, anstatt nur auf der Grundlage vergangener Daten Entscheidungen zu treffen.

Beispielsweise ist das Falten von Kleidung ein scheinbar einfacher Task, aber unterschiedliche Kleidungsstücke erfordern unterschiedliche Handlungen. Mithilfe des Weltmodells können Roboter die Eigenschaften der Kleidung besser verstehen und präzisere Bewegungen ausführen.

Das hirnähnliche KI-System ist derzeit mein Fokus. Es betont die Zusammenarbeit mehrerer kleiner Modelle, anstatt ein großes Modell, das alle Probleme löst. Im Bereich der Robotik hilft das Weltmodell den Robotern, zukünftige Szenarien vorherzusagen, so dass sie ihre Aufgaben effizienter ausführen können.

Beispielsweise passt ein Roboter, der die Räume reinigt, seine Aufgabenabläufe auf der Grundlage der vorhergesagten Ergebnisse an und verbessert so seine Effizienz.

Ein interessantes Experiment war das Binden von Plastiktüten. Unsere ursprüngliche Trainingsmethode war nicht flexibel genug. Später haben wir ein "Plastiktüten-Weltmodell" erstellt, das den Robotern ermöglicht, die physikalischen Eigenschaften unterschiedlicher Plastiktüten zu verstehen und verschiedene Situationen intelligent zu bewältigen.

Dieser Ansatz ermöglicht es dem Modell, mehr Szenarien zu bewältigen und nicht nur auf bestimmte Aufgaben beschränkt zu sein.

Einfach ausgedrückt, hilft das Weltmodell den Robotern, die unbekannte Welt besser zu verstehen und vorherzusagen und dadurch ihre Arbeitsleistung zu verbessern.

Wie kann das Weltmodell umgesetzt werden? Wer kann erfolgreich sein?

Lin Juemin: Da es so viele verschiedene Entwicklungsmöglichkeiten für Weltmodelle gibt, um was handelt es sich letztendlich bei dem Wettbewerb? Da jeder eine andere technische Route verfolgt, wie kann man am Ende vergleichen?

Wang Sheng: Aus Sicht eines Anlegers: Warum interessieren sich alle für Weltmodelle?

Für uns Anleger ist "Weltmodell" derzeit ein Konsens-Label - ähnlich wie "körperliche KI" vor ein paar Jahren. Wenn man es hört, möchte man sofort investieren.

Tatsächlich ist es jedoch nur ein Konsens-Label.

Die Definition von Weltmodellen ist unterschiedlich. Wie wir heute bei den Teilnehmern hier sehen können, haben alle eine etwas andere Vorstellung davon.

Als Anleger sind wir bereit, alle scheinbar vernünftigen Definitionen von Weltmodellen zu akzeptieren. Das Wichtige ist, ob es sich in die konkrete technische Umsetzung umsetzen lässt, ob es kontinuierlich wachsen kann und ob es ein hohes Marktpotential hat.

Aus meiner persönlichen Sicht müssen zukünftige Weltmodelle zwei Kernmerkmale haben:

Zunächst braucht es ein Validierungssystem, das der "realen Welt" (ground truth) nahe kommt und in der Lage ist, eine große Menge an hochwertigen Daten zu generieren. Die Daten müssen nicht nur viel sein, sondern auch ausreichend real und hochwertig sein, um dem Modelltraining wertvolle Rückmeldungen zu geben.

Zweitens muss die Datenverteilung ausgeglichen sein. Es müssen sowohl dichte Daten als auch spärliche Daten vorhanden sein, um zu vermeiden, dass das Modell überangepasst wird und um sicherzustellen, dass ein Modell mit stärkerer Generalisierungsfähigkeit trainiert wird. Die Generierung einer großen Menge an hochwertigen Daten durch das Weltmodell ist die Grundlage für das Modelltraining.

Wu Wei: Wenn man von der Geschäftsessenz ausgeht, kommt es bei der Konkurrenz um Weltmodelle auf eine zentrale Frage an: Kann ein Unternehmen in der Konkurrenz überleben?

Als Geschäft