「Inverse Matrix」 hat eine Finanzierungsrunde im Wert von über 100 Millionen US-Dollar abgeschlossen. Der Gründer erklärt, dass sich das Zeitfenster für generische Basismodelle der Welt auf 18 Monate verkürzt hat.
Text | Wang Yuchan
Editor | Zhang Yuxin
Seit 2026 ist der Wettlauf um Weltmodelle auf dem Primärmarkt in eine heiße Phase eingetreten. Das Kapital verteilt sich nicht mehr wie in den frühen Tagen "breit gestreut", sondern konzentriert sich stark auf die Spitzenakteure. Unter ihnen hat die Firma Physis (Inverse Matrix Technology) mehrere Runden von Finanzierungen hinter sich gebracht.
Exclusive von 36Kr Smart Emergence erfahren wir, dass die Weltmodell-Firma Physis (Inverse Matrix Technology) eine Seed++-Runde von über einer Milliarde US-Dollar abgeschlossen hat; bereits im März diesen Jahres wurde die erste Runde von über zehn Millionen US-Dollar abgeschlossen. Diese Runde wurde gemeinsam von Jingwei Venture Capital, Wuyuan Capital, Guanghe Venture Capital und anderen Institutionen unterstützt, und es wurde eine strategische Investition von Ant Group vorgenommen. Die alten Aktionäre, wie Hillhouse Capital und Yanyuan Venture Capital, haben ihre Investitionen erhöht.
Vor und nach der Abschließung dieser Finanzierungsrunde hat Physis das universelle Weltgrundlagenmodell Physis-v0.1 veröffentlicht und es als eine universelle Anwendung für die physikalische Welt mit dem Motto "One For All" beschrieben. Dieses Modell zeichnet sich durch vier Fähigkeiten aus: physikalische Korrektheit, langfristige Konsistenz, Handlungs-Kausalität und universelle Generalisierung. Mit einer einzigen Vorabtrainingsphase kann es für verschiedene Szenarien wie Embodied Intelligence, industrielle Simulation, Spielphysik und wissenschaftliche Vorhersagen eingesetzt werden.
Physis plant, Ende 2026 das Flaggschiffmodell zu veröffentlichen. Im Prozess werden offene Quellcode-Schnitte und technische Berichte herausgegeben. Das Kapital aus dieser Runde wird hauptsächlich für die Vorabtraining-Entwicklung des universellen Weltgrundlagenmodells und den Aufbau eines skalierbaren Trainingssystems verwendet.
Das Team wurde von den jungen Peking-Universität-Wissenschaftlern Chen Boyuan und Ji Jiaming gemeinsam gegründet. Die Hälfte des Teams besteht aus jungen Wissenschaftlern (einschließlich Preisträgern von Olympiaden und mehreren Autoren von Artikeln in Top-Konferenzen), und die andere Hälfte besteht aus erfahrenen Ingenieuren aus führenden Technologieunternehmen. Sie bilden ein AI-native, flaches Team ohne hierarchische Berichte und Quartalsziele. Die Richtung wird durch technische Urteile statt administrativer Befehle festgelegt; das Team glaubt an freie Exploration, die erste Prinzipien und den Langzeitgedanken.
Smart Emergence hat Chen Boyuan im Moment der Abschließung der neuen Finanzierungsrunde ausführlich interviewt. Er hat Fragen zu Organisationstruktur, Finanzierungsrhythmus, technischem Weg, Branchenurteilen und Szenario-Realisierung beantwortet.
"Der momentane Konsens in der Branche ist, dass innerhalb von 18 bis 24 Monaten die Fähigkeiten des Weltgrundlagenmodells einen markanten Sprung machen werden und dass innerhalb von 36 Monaten die praktische Anwendung in mehreren realen Szenarien abgeschlossen werden kann", sagte Chen Boyuan. "Dies stimmt stark mit dem Weg der Sprachmodelle von GPT-3 zu ChatGPT überein."
Im Folgenden finden Sie die Transkription des Gesprächs zwischen Smart Emergence und Chen Boyuan:
Das Zeitfenster für universelle Weltgrundlagenmodelle wird von drei Jahren auf achtzehn Monate verkürzt
F1: Herzlichen Glückwunsch an Physis zur erfolgreichen Abschließung einer neuen Finanzierungsrunde im Bereich von über einer Milliarde US-Dollar. Es ist erst weniger als zwei Monate seit der letzten Finanzierungsrunde vergangen. Warum können Sie diesen so schnellen Finanzierungsrhythmus aufrechterhalten?
Chen Boyuan: Dies spiegelt die Investoren's Wettlauf auf den dritten Paradigmenwechsel in der AI-Entwicklung wider.
In den letzten zehn Jahren hat die AI zwei Paradigmenwechsel durchlaufen: Sprachmodelle (Vorhersage des nächsten Wortes) und visuelle Generierungsmodelle (Vorhersage des nächsten Frames), die jeweils plattformartige Unternehmen hervorgebracht haben. Der aktuelle dritte Paradigmenwechsel wird durch die Überführung der AI von der virtuellen in die physikalische Welt ausgelöst, und der Kern besteht darin, "den nächsten physikalischen Zustand" in Bezug auf den physikalischen Raum vorherzusagen.
Dieses Paradigma, "gegeben den aktuellen Zustand und die Handlung, vorherzusagen, wie sich die Welt entwickelt", ist bereits in Teilproblemen wie AlphaGo und Robotersteuerung aufgetreten und konvergiert jetzt zu einem einheitlichen Lösungskonzept. Der grundlegende Unterschied zwischen der physikalischen und der virtuellen Welt besteht jedoch darin, dass die physikalische Welt "teilweise beobachtbar" ist. Das Modell darf nicht nur auf "Tun, was man sieht" beschränkt bleiben, sondern muss die zugrunde liegenden physikalischen Einschränkungen verstehen.
Die Investoren sind bereit, schnell zu folgen und ihre Investitionen zu erhöhen, hauptsächlich aufgrund zweier Urteile:
Erstens wird der Weg des Grundlagenmodells, "die physikalischen Gesetze auf der unteren Ebene einheitlich zu modellieren und auf der oberen Ebene an verschiedene Szenarien anzupassen", zum Branchenkonsens.
Zweitens wird das Zeitfenster für universelle Weltgrundlagenmodelle von drei Jahren auf achtzehn Monate verkürzt. Teams, die universelles Vorabtraining durchführen, haben mehr Raum. Ein führendes universelles Grundlagenmodell hat Daten-Skalierbarkeit und Algorithmus-Effektivität und bildet eine Schwelle, die schwer zu überholen ist.
F2: Welche Fragen haben die Investoren am häufigsten während des Finanzierungsprozesses gestellt? Welchen Konsens haben sie über den Zeitraum, bis die Technologie in die Praxis umgesetzt wird?
Chen Boyuan: Die am häufigsten gestellten Fragen waren: "Warum sollte man glauben, dass ein universelles Weltgrundlagenmodell funktionieren kann?" und "Ist das Team fest entschlossen, ein Grundlagenmodell zu entwickeln?"
Nach unserer Meinung hängt es davon ab, ob es sich um ein Grundlagenmodell handelt, ob es wirklich aus dem Ziel der physikalischen Vorhersage heraus aufgebaut wird. Deshalb haben wir das Problem der physikalischen Vorhersage von Grund auf neu gelöst, die untere Architektur selbst entwickelt und in der Vorhersage außerhalb des Trainingsdatensatzes Anzeichen für eine vernünftige physikalische Ableitung gesehen.
Interne Experimente von Physis zeigen, dass mit zunehmender Daten- und Parametergröße der Fehler bei der Zustandsvorhersage kontinuierlich abnimmt und ein ähnliches exponentielles Skalierungspotenzial wie bei großen Sprachmodellen aufweist, ohne dass ein Sättigungspunkt wie bei vertikalen Modellen auftritt.
Bezüglich des Zeitraums bis zur Realisierung besteht der Konsens darin, dass innerhalb von 18 bis 24 Monaten die Fähigkeiten des Grundlagenmodells einen markanten Sprung machen und in realen Anforderungen hohe Punktzahlen erzielen werden; innerhalb von 36 Monaten kann die praktische Anwendung in mehreren realen Szenarien abgeschlossen werden. Dies stimmt stark mit dem Weg der Sprachmodelle von GPT-3 zu ChatGPT überein. Zu diesem Zeitpunkt werden die einzelnen vertikalen Szenarien direkt die Aufrufer der API des Grundlagenmodells und bilden eine ähnliche Beziehung wie AWS und SaaS.
F3: Warum haben Sie keine Investitionen von Industriefonds in diesem Moment eingeworben?
Chen Boyuan: In dieser Phase brauchen wir am meisten, dass wir das "Munition" auf eine Richtung konzentrieren, um die Entwicklung und die Rechenleistungsschwelle des universellen Weltgrundlagenmodells zu überwinden. Dies ist eine Sache, die langfristig und konzentriert betrieben werden muss.
Wir sind derzeit nicht eilig, kommerziell zu werden. Dies ist unser Werturteil in dieser Phase. Für ein Unternehmen, das ein universelles Grundlagenmodell entwickelt, würde es, wenn man das Modell zu früh an ein vertikales Szenario bindet, um Geld zu verdienen, zwar wie die Ernte der Gegenwartige Früchte erscheinen, aber tatsächlich eine Grenze für sich setzen: Sobald man Daten für ein einzelnes Szenario sammelt, das Modell anpasst und die Lieferung vornimmt, wird man allmählich zu "einem Szenario, einem Modell".
Wir glauben, dass es eine universelle Lösung für die physikalischen Gesetze gibt. Gravitation, Kollision, Reibung usw. folgen in jedem Szenario denselben Gesetzen. Der Wert des Grundlagenmodells liegt in der Wiederverwendung über Szenarien hinweg. Deshalb sind wir nicht eilig, Geld zu verdienen, was nicht bedeutet, dass wir die Kommerzialisierung nicht schätzen. Wir legen Wert auf die Kommerzialisierung, aber in dieser Phase sind wir lieber bereit, die physikalische Verständnisfähigkeit des Grundlagenmodells zu stärken; der Rhythmus der Kommerzialisierung wird sich natürlich mit der Reife der Technologie und den realen Industriebedarfen entwickeln.
Die Fähigkeit geht vor den kommerziellen Aktionen, und das Organisationsstil ist zurückhaltend. Die Investoren sind schließlich bereit, für wiederholbare und erweiterbare Fähigkeiten zu bezahlen, und es ist unsere einzige Aufgabe in diesem Moment, diese Fähigkeit zu stärken.
F4: Sie sind auch der Leiter des Innovationszentrums für Verhaltensweltmodelle des Zhipu-Instituts. Gibt es eine Verbindung zwischen Physis und dem Zhipu-Institut?
Chen Boyuan: Das Zhipu-Institut hat sich immer auf die ursprüngliche Innovation von 0 bis 1 im Bereich der AI konzentriert, während Physis sich stärker auf die untere Erforschung und die kommerzielle Technologieentwicklung des universellen Weltgrundlagenmodells konzentriert. Beide streben dasselbe Ziel an – die Künstliche Intelligenz soll die physikalischen Gesetze wirklich verstehen.
Der wichtigste Wendepunkt: Das echte Potenzial eines Grundlagenmodells
F5: Wird es für Weltmodelle ein Skalierungsgesetz geben?
Chen Boyuan: Die physikalische Welt muss sicherlich ihr eigenes Skalierungsgesetz haben, aber man kann nicht einfach das Skalierungsgesetz von Sprachmodellen oder Video-Generierungsmodellen übernehmen. Es gibt drei Gründe, warum eine direkte Kopie fehlschlägt:
Beschränkte Daten: Physikalische Interaktionsdaten können nicht wie Internettexte unbegrenzt gesammelt werden. Die Kosten für die Datenerfassung und -auswahl sind sehr hoch.
Pixel ist nicht gleich Physik: 90% der Informationen in Videos, wie Texturen, Beleuchtung, Bewegungsunschärfe usw., sind visuelle Redundanzen, die mit den physikalischen Gesetzen nichts zu tun haben.
Korrelation ist nicht gleich Kausalität: Reine Beobachtung kann nur statistische Korrelationen lernen, während der Kern der Physik die Kausalität ist. Es muss eine "Handlung" geben, um Gesetze von Zufällen zu unterscheiden. Deshalb müssen wir in einem "physikalischen latenten Raum" anstatt im Pixelraum skalieren. Dies beinhaltet vier wichtige technische Urteile:
Komprimierung: Die Welt wird in einen effizienten physikalischen latenten Raum mit abstrakten Repräsentationen wie Kraft und Geschwindigkeit kodiert, um visuelle Redundanzen zu eliminieren.
Kausalität: In den latenten Raum wird von vornherein eine Handlungsintervention eingeführt, damit das Modell versteht, wie die Handlung den physikalischen Zustand verändert.
Validierung: Der reine generative Ansatz hat nur Generierungsfähigkeiten, aber keine Validierungsfähigkeiten und kann leicht "physikalische Halluzinationen" wie Durchdringung und Schwerelosigkeit verursachen. Deshalb haben wir Reinforcement Learning eingeführt, wie die RLVR-Signalbelohnung, um einen geschlossenen Kreis von Ausrichtungs-Signalen durch klare physikalische Einschränkungen zu bilden.
Universalität: Der endgültige latente Raum muss für verschiedene Szenarien geeignet sein (One for All), da die physikalischen Gesetze in verschiedenen Szenarien dieselben sind.
F6: Wie haben Sie in der Modelltrainingsphase konkret den Mechanismus gestaltet, damit das Modell aus "aktiven Interventionen" lernt? Welche konkreten Belohnungs- und Bestrafungsmechanismen wurden eingeführt, um zu verhindern, dass das Modell bei unbekannten Umgebungen in der physikalischen Ableitung zusammenbricht?
Chen Boyuan: Die physikalischen Gesetze der Welt entstehen aus Interaktionen, nicht aus passiver Wahrnehmung.
Deshalb haben wir die Modellarchitektur von Grund auf neu entworfen und in den unteren physikalischen latenten Raum von vornherein eine Handlung eingeführt. Dies ist nicht wie bei traditionellen Video-Generierungsmodellen, die einen Motor anbringen, um auf die Steuerung zu reagieren. Es ist wie wenn man auf einem Auto ohne Lenkrad eine Lenkrad anbringt und dann behauptet, es sei steuerbar.
Wir injizieren die Handlung, sei es die Gelenkbewegung oder der Verschiebungsvektor, als Bedingungssignal, um den Prozess der Vorhersage des nächsten physikalischen Zustands zu modulieren. Auf diese Weise verdoppelt sich die Dichte jeder Dateneinheit, und das Modell lernt nicht mehr, "wie die Welt aussieht", sondern "welche Handlung zu welchem Zustandsübergang führt", wodurch ein Übergang von Korrelation zu Kausalität erreicht wird.
Die Physik ist von Natur aus überprüfbar. Beispielsweise kann ein Objekt nicht einfach verschwinden, ein Rennwagen kann nicht durch eine Wand fahren, und eine Flüssigkeit kann nicht wie ein Eisblock ausgegossen werden. Deshalb haben wir in Reinforcement Learning eine automatisierte physikalische Validierungsumgebung aufgebaut.
Die W0–W5-Fähigkeitsklassifizierung von Weltmodellen, erstellt von Physis
F7: In welcher Stufe der "W0-W5-Weltmodell-Fähigkeitsklassifizierung", die Physis erwähnt, befinden Sie sich derzeit? In welcher Stufe befindet sich das Modell, wenn ein Roboter erfolgreich ein Ei aufschlagen kann?
Chen Boyuan: Diese Klassifizierung entspricht der L0-L5-Klassifizierung für Autonomes Fahren. Derzeit befinden sich die meisten Modelle in der Stufe W0-W1 und können auf Handlungen reagieren und flüssige Videos generieren.
Physis bemüht sich derzeit, den Sprung von W1 zu W2 zu schaffen, was der wichtigste Wendepunkt ist. W2 bedeutet, dass das Modell wirklich das Potenzial eines Grundlagenmodells hat und das Problem der "physikalischen Wahrheit" gelöst hat und die Kausalität versteht. Wenn man nur möchte, dass ein Roboter ein Ei aufschlägt, kann man auch mit vertikalem Training eine ausgezeichnete Steuerung erreichen, aber es versteht möglicherweise nur das lokale Szenario des Ei-Aufschlagens und nicht die universelle Physik.
Der Kern, um zu beurteilen, ob ein Grundlagenmodell gut genug ist, liegt in der "Aktionsfolgefähigkeit (Action Following)" und der Generalisierungsfähigkeit. Ein Grundlagenmodell kann nicht nur Eier aufschlagen, sondern auch in Szenarien mit flexiblen Materialien mit einer Yo-Yo spielen. Große Modelle haben durch Reinforcement Learning einen universellen Sprung in der mathematischen Codeableitung erreicht. Weltmodelle müssen auch unter klarem physikalischem Validierungssignal lernen, um einen universellen exponentiellen Sprung zu erreichen.
F8: Was ist bei diesem Modellaufstieg der wichtigste Engpass: Rechenleistung, Daten oder Algorithmus?
Chen Boyuan: Ich denke, dass alle sehr wichtig sind. Aber wenn ich nur eines auswählen muss, denke ich, dass es das "Paradigma" ist, das hinter den Daten und dem Algorithmus steckt. Denn diese drei Faktoren sind