Produziert von Pengcheng Laboratorium: Weltmodell erhält mehrere Hundert Millionen Yuan an Finanzierungen

Wie sollten wir das "Weltmodell" realistisch und effizient entwickeln?

In der heutigen Künstlichen-Intelligenz-Wettmeisterschaft ist Mark Zuckerberg und sein Meta vielleicht der radikalste Spieler, ohne Zweifel.

In den letzten zwölf Monaten hat Zuckerberg reichlich Geld ausgegeben und viele Talente rekrutiert, um das stärkste KI-Produkt-Team der Welt zusammenzustellen. Er bietet Talenten, die zuvor bei Top-Unternehmen wie OpenAI und Anthropic gearbeitet haben, oftmals "Wechselprämien" von einer Milliarde US-Dollar an. Der größte Teil der Ausgaben ging an Wang Tao – um diesen talentierten jungen Mann zu überzeugen, Meta beizutreten und das KI-Team zu leiten, hat Zuckerberg 14,8 Milliarden US-Dollar ausgegeben, um die von Wang Tao gegründete Scale AI direkt zu erwerben und das gesamte Team zu übernehmen.

Darüber hinaus hat Zuckerberg das Risikokapitalfonds NFDG von Daniel Gross, dem CEO von SSI und ehemaligen Partner von Y Combinator, und hat daraufhin die beiden Partner von NFDG – Daniel Gross und Nat Friedman, den ehemaligen CEO von GitHub und Leiter des berühmten Tech-Podcasts "Hacker Medley" – eingeladen, Meta beizutreten, um das erste Industriefonds (CVC) seit der Gründung von Meta zu gründen.

Was noch wichtiger ist, hat Zuckerberg eine Trumpkarte in der Hand, nämlich den Chefwissenschaftler von Meta, Yann LeCun.

Wer ist Yann LeCun? Er ist der Gewinner des Turing Awards, der höchsten Auszeichnung in der Informatik, ein Schüler von Geoffrey Hinton, dem "Vater der KI", und der Studienkollege von Ilya Sutskever, dem ehemaligen Chefwissenschaftler von OpenAI. Er ist der Erfinder des Backpropagation-Algorithmus für neuronale Netze. Man kann sagen, wenn es ein "Jianghu" (Chinesisches Begriff für das Unterwelt der KI) gäbe, dann wäre Yann LeCun der Meister, der Meta helfen kann, eine eigene Schule zu gründen.

Gerade als alles in Stellung gebracht war und man sich auf den großen Sprung vorbereitete, hat diese Trumpkarte allen eine Überraschung bereitet: Yann LeCun hat angekündigt, dass er Ende des Jahres Meta verlassen wird, um sein eigenes Unternehmen zu gründen. In seiner Meinung "sind die derzeitigen Large Language Models dümmer als Katzen und haben eine schlechte Fähigkeit, die physische Welt zu verstehen", und behauptet, dass der gegenwärtige Weg "ein Sackgasse" ist – wenn man ein echtes "Allgemeines Künstliche Intelligenz (AGI)" entwickeln will, muss man sich auf einen anderen technologischen Ansatz konzentrieren: das Weltmodell.

Sobald diese Nachricht veröffentlicht wurde, hat sie die globale Tech-Szene wie ein Bombenfall getroffen, und das "Weltmodell" ist schnell ein beliebtes Stichwort geworden. Unzählige Menschen diskutieren: "Was genau ist ein Weltmodell?" und "Was sind die Unterschiede zwischen Weltmodellen und den Large Language Models, die wir bereits kennen?"

In China gibt es auch eine Gruppe von Wissenschaftlern, die über dieselben Fragen nachdenken und sich nicht an LeCuns theoretischen Rahmen halten, sondern versuchen, ihre eigenen Lösungen zu finden. Nach Informationen von Touzhongwang hat das von der Pengcheng Laboratory gegründete und auf die Forschung und Entwicklung von "Intelligenten Modellen für den physischen Raum" spezialisierte "Tuoyuan Intelligence" kürzlich eine Serie von Pre-A-Runden-Finanzierungen im Wert von Hunderten von Millionen Yuan abgeschlossen und mehrere strategische und industrielle Investoren wie die börsennotierte Firma Dongfang Seiko, Xingchen Technology, das verbundene Kapital von Goldhome – Detao Capital und Shixi Capital, sowie bedeutende staatliche Investitionspartner wie Yueke Venture Capital und Forschungsinstitutsfonds wie Pengcheng Vision und Hongniao Qihang Fund eingeladen. Shenlan Capital fungiert als langfristiger exklusiver Finanzberater.

Es ist bekannt, dass die Mittel aus dieser Runde hauptsächlich für die Forschung und Entwicklung von Intelligenten Modellen für den physischen Raum eingesetzt werden, um die Fähigkeit des Modells zur physischen Inferenz und zur Übertragung zwischen verschiedenen Szenarien zu verbessern, eine Embodied-Ekologie aufzubauen und die Kommerzialisierung der relevanten Produkte zu beschleunigen.

Was ist ein "Weltmodell"?

Warum ist der Large Language Model ein Sackgasse? Yann LeCun, der sein ganzes Leben lang das menschliche Gehirn studierte, glaubt, dass Menschen in der Lage sind, zu inferieren und zu planen, weil sie Dinge erinnern können, Intuition haben und Allgemeinwissen besitzen. Der Arbeitsmechanismus der Large Language Models besteht darin, das nächste logisch passende Token zu inferieren, während Bild- oder Videomodelle das nächste logisch passende Pixel inferieren.

Mit anderen Worten, obwohl diese Modelle beachtliche Inferenzfähigkeiten gezeigt haben, sind sie auf die Dimensionen von "Token" und "Pixel" beschränkt und verstehen die dreidimensionale Welt nicht wirklich. Nehmen wir ein einfaches reales Szenario als Beispiel: Gegeben die Beschreibung "Türbreite 80 cm, Tischbreite 50 cm, Schulterbreite einer Person 55 cm", tendiert der aktuelle Sprachmodell dazu, die Zahlen einzeln zu vergleichen und zu denken, dass "alles schmaler als die Tür ist, also können sie gemeinsam durchgehen", und ignoriert völlig die Kombinationsbreite, wenn die beiden nebeneinander stehen, die Projektionsänderungen durch Drehung, die Beschränkungen bei der Haltungseinstellung und die Unverdringbarkeit zwischen Objekten und andere grundlegende physikalische Gesetze. Solche Fehler sind nicht nur ein Wissensmangel, sondern auch ein Mangel an echter Fähigkeit, den physischen Raum zu verstehen, was den grundlegenden Grund dafür unterstreicht, dass die aktuelle KI kein zuverlässiger Teilnehmer in der physischen Welt werden kann.

Wenn man pragmatischer spricht, hat der Large Language Model zwar Fortschritte bei der Textinferenz und Wissensverarbeitung erzielt, aber es gibt immer noch grundlegende Mängel bei der Verständnis der realen physischen Welt, der Planung kontinuierlicher Aktionen und der Echtzeitinteraktion mit der Umwelt. Solche Mängel machen nicht nur die Realisierung von AGI weit entfernt, sondern beschränken auch direkt die Erweiterung der KI-Technologie auf praktischere Anwendungsbereiche wie Embodied Intelligence.

Zum Beispiel kann ein Roboter aufgrund der ungenauen Verständnis der Raumstruktur und geometrischen Beziehungen des Modells oft "nicht zielen, nicht greifen, nicht umgehen und nicht gerade gehen" beim Ausführen einfacher Aufgaben. Bei einem Greifauftrag kann der Roboterarm möglicherweise aufgrund einer Fehleinschätzung der Zielposition mehrmals erfolglos greifen oder beim Bewegen leicht gegen Tischkanten oder Wände stoßen, was eine Fehleinschätzung von Entfernung, Erreichbarkeit und Hindernisbedingungen zeigt. In komplexeren Szenarien kann das Modell sogar Handlungspläne generieren, die den physikalischen Gesetzen widersprechen, wie zum Beispiel den Roboterarm durch ein Hindernis hindurchgehen zu lassen, die mobile Plattform in eine nicht passierbare enge Lücke zu fahren oder eine instabile Bahn auf einer geneigten Ebene auszugeben. Darüber hinaus sind diese Systeme stark von den Trainingsszenarien abhängig. Wenn sich das Licht ändert, die Objekte leicht verschieben oder die Perspektive ändert, kann die Leistung deutlich sinken, und das Ergebnis der gleichen Anweisung kann in verschiedenen Szenarien völlig unterschiedlich sein.

Zusammenfassend gesagt, um der KI wirklich menschliche Lernfähigkeiten zu verleihen, muss man dem Large Model helfen, unsere "physische Welt" wirklich zu verstehen, und dieser Ansatz wird "Weltmodell" genannt. Yann LeCun sagte: "Ein Weltmodell ist dein mentales Modell davon, wie die Welt funktioniert. Du kannst dir eine Reihe von Handlungen vorstellen, und dein Weltmodell wird es dir ermöglichen, vorherzusagen, welche Auswirkungen diese Handlungen auf die Welt haben werden."

Die bekannte chinesische Wissenschaftlerin Fei-Fei Li teilt dieselbe Meinung. Sie glaubt, dass die Haupttechnologierichtung der KI in den nächsten zehn Jahren das "Weltmodell" mit räumlicher Intelligenz sein sollte. Das Kriterium, um zu beurteilen, ob etwas "räumliche Intelligenz" hat, ist: die Fähigkeit, eine Welt zu generieren, die den physikalischen Gesetzen entspricht und räumlich konsistent ist, multimodale Eingaben von Bildern bis hin zu Handlungen zu verarbeiten und vorherzusagen, wie sich diese Welt entwickeln wird oder wie man mit ihr interagieren kann.

Natürlich gibt es diesen sogenannten "Ansatzstreit" nicht, weil andere Large Model-Entwickler den Wert des "Weltmodells" nicht anerkennen, sondern weil es Schwierigkeiten gibt.

Um von der digitalen Welt in die reale Welt zu gelangen, ist es eine grundlegende Fähigkeit, die Handlungen in der realen Welt zu beurteilen und mit der realen Welt zu interagieren. Der derzeitige Mainstream-Large Model-Architektur, nämlich das Visuelle-Sprache-Handlungs-Modell (VLA), hat zwei unumgängliche Mängel, die selbst die Einführung eines Weltmodells nicht vollständig beheben kann:

Erstens komprimiert das VLA normalerweise die visuelle Eingabe zunächst in den Sprach-Token-Raum. Dieser Prozess führt natürlich zu einem Verlust von wichtigen geometrischen, topologischen und physikalischen Informationen im kontinuierlichen Raum, was es dem Modell schwer macht, genaue Positionsbeziehungen zu verstehen und somit zu Fehlern bei der Handlungssteuerung führt, oder sogar Handlungssequenzen ausgibt, die den physikalischen Beschränkungen widersprechen.

Zweitens ist die Generalisierungsfähigkeit des VLA äußerst begrenzt. Die reale Welt ist hochgradig komplex und vielfältig, und die Embodied Intelligence ist extrem empfindlich gegenüber Perspektivänderungen, Umgebungsgestaltung, Objektverdeckung und dynamischen Bedingungen. Wenn diese Faktoren zusammenwirken, kann das VLA-Modell leicht in den Trainingsszenarien gut funktionieren, aber nicht auf neue Umgebungen übertragen werden. Sobald sich der Hintergrund ändert, das Licht unterschiedlich ist oder die Objekte leicht verschieben, kann die Kette von Wahrnehmung-Inferenz-Handlung des Modells völlig zusammenbrechen.

Man kann sagen, dass diese beiden Engpässe direkt dazu führen, dass die KI in der physischen Welt stark eingeschränkt ist und auch den derzeitigen "Weg zu AGI" wie ein endloses Loch erscheinen lassen. Ein indirektes Beispiel dafür ist, dass Zuckerberg im Oktober 2025 – also einen Monat vor Yann LeCuns Ankündigung, sein eigenes Unternehmen zu gründen – öffentlich erklärt hat, dass Meta im nächsten Jahr Kosten von über 100 Milliarden US-Dollar haben wird, um wettbewerbsfähig zu bleiben. Diese Äußerung hat direkt die Sorge über die hohen Kosten der Large Model ausgelöst und auch die Geduld der Investoren stark getestet. Ende Oktober ist der Meta-Akt um 12,6 % gefallen, und der Marktwert hat um fast 240 Milliarden US-Dollar geschrumpft.

“VWA”: Macht das “Weltmodell” möglich?

Wie können wir also das "Weltmodell" realistisch und effizient entwickeln? Fei-Fei Li und Yann LeCun denken darüber nach, und auch chinesische Wissenschaftler denken darüber nach, und Tuoyuan Intelligence ist einer von ihnen.

Tuoyuan Intelligence ist eines der ersten Unternehmen, die von der Pengcheng Laboratory im Rahmen der Ökosystembildung für intelligente Rechenkapazitäten gegründet wurden. Das Kerngründungsteam besteht aus weltweit führenden KI-Wissenschaftlern, darunter Dr. Wang Guangrun, ein junger Führungswissenschaftler im Bereich der KI (der höchste Rang bei der Huawei Genius Youth-Programm), Dr. Wang Keze, ein nationaler junger Talent (Gewinner des Wu Wenjun KI-Wissenschaftspreises) und Dr. Liang Xiaodan, Leiter des Joint Lab von Sun Yat-sen University und Tuoyuan (Gewinner des Alibaba Qingcheng-Preises).

Ihre Antwort ist "VWA", das Vision-World-Action-Modell, eine völlig neue Architektur, die sich vom VLA-Modell unterscheidet.

Das Tuoyuan-Team glaubt, dass der Schlüsselengpass, der die Verbesserung der Fähigkeiten des derzeitigen Large Models einschränkt, die mangelnde Generalisierungsfähigkeit der meisten Modelle ist. Um diesen Engpass zu überwinden, muss man die Gesamtfähigkeit in zwei Module aufteilen: "physikalisches Modellieren" und "räumliches Modellieren". Durch diese Aufteilung kann das Modell eine hochgradig universelle und umgebungsübergreifend stabile Fähigkeit zum physikalischen Modellieren erlangen; der Teil, der wirklich die Generalisierungsfähigkeit beeinflusst, liegt nur im räumlichen Modellieren von konkreten Szenarien. Dieser Mechanismus stimmt weitgehend mit dem Verhalten von Menschen überein, wenn sie einen Roboter in einer unbekannten Umgebung steuern: Menschen haben keine natürliche "Generalisierungsfähigkeit", sondern verlassen sich darauf, sich schnell an die räumliche Gestaltung in einer neuen Umgebung anzupassen, um Aufgaben zu erfüllen.

Das VWA-Modell wurde genau auf dieser Grundlage entwickelt. Im Gegensatz zum VLA-Modell, das die visuelle Information in den Sprach-Token-Raum komprimieren muss, kann das VWA-Modell direkt im physikalischen Raum inferieren und Entscheidungen treffen, in kontinuierlichen physikalischen Räumen mehrere Schritte vorausschauen, zukünftige Zustandsänderungen vorhersagen und somit einen wichtigen Schritt in Richtung Planung, Sicherheitsbewertung und stabiler Steuerung machen.

Der Kern der Implementierung der VWA-Modellarchitektur ist das von Tuoyuan entwickelte Physikalische Autoregressive Modell (Physical Autoregressive Model, PAR). Das PAR-Modell codiert Videoframes und Roboterhandlungen gemeinsam als "physikalische Token", so dass das Modell in autoregressiver Weise schrittweise das nächste Video und die nächste Handlung vorhersagen kann, und bildet so einen geschlossenen Kreis von "Vorhersage - Ausführung - erneute Vorhersage". Besonders wichtig ist, dass das PAR-Modell die dynamischen Gesetze der physischen Welt effektiv lernen kann, ohne dass eine Vorhersage der Handlungen erforderlich ist. Es hat in der PushCube-Aufgabe des Roboterbetriebsbenchmarks ManiSkill eine Erfolgsrate von 100 % erreicht und in mehreren Aufgaben mit starken Basismodellen konkurriert, die eine Vorhersage der Handlungen erfordern. Dieses Ergebnis hat die Übertragung von großen Videovorhersagemodellen auf die Fähigkeit der Roboterbetreuung in der realen Welt erheblich vorangetrieben.

Zweitens hat Tuoyuan im Bereich der unteren Schicht der Inferenzmechanismen ein neues Tweedie-Framework entwickelt, das die Genauigkeit der Handlungssteuerung erheblich verbessert; gleichzeitig wurde ein effizienter Eon-Berechnungsmechanismus eingeführt, der die Betriebseffizienz und die Fähigkeit des Modells zur Modellierung langer Sequenzen stark verbessert. Die Kombination dieser beiden Mechanismen legt eine solide Grundlage für die Konstruktion eines zuverlässigeren, intelligenteren und generalisierbareren Intelligenten Modells für den physischen Raum.

Im Bereich der Daten hat Tuoyuan Intelligence mehrere Quellen und hochwertige physische Daten eingeführt, darunter hauptsächlich: (1) Echte menschliche Greif- und natürliche Szenari

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Produziert von Pengcheng Laboratorium. Ein "Weltmodell" hat mehrere Hundert Millionen Yuan an Finanzierungen erhalten.

Was ist ein "Weltmodell"?

“VWA”: Macht das “Weltmodell” möglich?