StartseiteArtikel

Yingshuo hat eine Finanzierung in Höhe von mehreren Zehn Millionen US-Dollar abgeschlossen: „Die physische Welt ist 3D, und auch das Weltmodell sollte 3D sein“

晓曦2026-06-18 12:14
Weltmodelle entwickeln sich von der Generierung von Videos, die „wie etwas aussehen“, hin zur Konstruktion „berechenbarer, interaktiver 3D-Weltzustände“.

„AnYong Waves“ hat exklusiv erfahren, dass das Raumintelligenzunternehmen InSpatio die Serie Pre - A - Finanzierung im Wert von mehreren Millionen US - Dollar abgeschlossen hat. An dieser Runde beteiligten sich die Investoren Guanghe Venture Capital, Shunwei Capital und Sequoia China.

Die dahinter liegende Logik dieser Finanzierung wird zunehmend zum Konsens: Die physische Welt ist dreidimensional, und das Weltmodell sollte es auch sein. Damit KI in reale Szenarien wie Robotik, Autonomes Fahren, Spiele, Film und Fernsehen, XR und industrielle Simulation eintreten kann, muss sie zunächst lernen, die dynamische dreidimensionale physische Welt zu verstehen.

In den letzten zwei Jahren hat die Videogenerierung das Niveau des „realen Aussehens“ auf ein neues Level gehoben. Aber für die physische KI reicht es nicht aus, nur Bilder auf der Grundlage der Welterscheinung zu generieren. Wenn man sagt, dass ein 2D - Video eine Projektion der Welt ist, dann muss ein 3D - Weltmodell den dynamischen Zustand hinter dem Schatten erfassen. Es ist wie, wenn man alle Schatten von Vögeln gesehen hat, aber dennoch das räumliche Skelett und die Flugmechanik des Vogels nicht rekonstruieren kann.

Roboter müssen in der Lage sein, autonom im Raum zu agieren, autonomes Fahren erfordert die Vorhersage von komplexen Umweltveränderungen, und Spiele und XR müssen interaktive Szenarien aufbauen. Hierfür braucht man nicht nur etwas, das „ähnlich“ ist, sondern etwas, das „ist“: ein 3D - Weltmodell, das die räumliche Struktur, die Objektbeziehungen, die Bewegungsveränderungen und die physikalischen Beschränkungen verstehen kann.

InSpatio hat sich für den 3D - nativen Ansatz entschieden.

InSpatio hat zuvor die Echtzeit - 3D/4D - Weltmodelle InSpatio - WorldFM und InSpatio - World veröffentlicht und open - sourced. Kürzlich hat es die Ankündigung des neuen Welt - Simulators Topos 1.0 gemacht, und die Beta - Tests werden bald eröffnet.

Wettlauf auf dynamische 3D - Weltmodelle

Die großen Modelle haben einen Wendepunkt erreicht, und Weltmodelle werden zur neuen Richtung des globalen KI - Wettbewerbs.

Sprachmodelle haben KI gelehrt, Texte zu verstehen und zu generieren, Videomodelle haben KI gelehrt, Bilder zu generieren. Aber wenn KI in die physische Welt eintreten will, reichen nur Bilder nicht aus. Sie muss den Raum verstehen, Objekte merken, Veränderungen vorhersagen und die Konsequenzen vor dem Handeln durchspielen.

Das ist genau die Schwierigkeit, die die aktuelle Embodied Intelligence zu überwinden hat.

Ein Service - Roboter kann durch das Anschauen von Videos lernen, einen Becher zu greifen. Aber wenn er von einer anderen Perspektive aus oder auf einem anderen Tisch agiert, kann er versagen. Der Grund ist, dass Videos nur zeigen, was „aus einer bestimmten Perspektive passiert“, aber nicht genau sagen können, wo sich die Objekte befinden, wie der Raum verbunden ist und ob ein fehlgeschlagener Griff reproduzierbar ist. Für die physische KI sind die wirklich wertvollen Daten der dynamische 3D - Weltzustand, der sich nach einer Aktion ändert und wiederholt verifiziert werden kann.

Deshalb wandert der Wettbewerb um Weltmodelle von „wer das realistischste Video erzeugen kann“ hin zu „wer eine berechenbare, interaktive und durchspielbare Welt generieren kann“.

Schöne Videos sind eher wie Renderer, die den bestehenden Zustand in Bilder umsetzen. Was die physische KI wirklich braucht, ist ein Simulator, der den Weltzustand aufrechterhält, die Handlungskonsequenzen durchspielt und es Agenten ermöglicht, in ihm in großem Maßstab Fehlversuche zu machen. Der Renderer beantwortet die Frage „wie sieht es aus“, der Simulator muss die Frage „wird es umfallen, wenn man es stoßt“ beantworten.

Um ein Simulator zu sein, muss ein Weltmodell zwei Probleme gleichzeitig lösen: Effizienz und Konsistenz.

Der 3D - native Ansatz muss das Modell nicht zwingen, die Raum - Zeit - Regeln mühsam aus überflüssigen Pixeln zu lernen. Dadurch werden die Trainings - und Inferenzkosten erheblich gesenkt, und das parallele Durchspielen in großem Maßstab wird möglich.

In Bezug auf die Konsistenz: Wenn die Perspektive eines 2D - Modells erweitert wird, die Zeitspanne verlängert wird oder es zu Verdeckungen kommt, kann die Position der Objekte brechen. Ein 3D - Modell hingegen hält den einheitlichen Raumzustand aufrecht, sodass dasselbe Objekt in verschiedenen Perspektiven und Zeitpunkten konsistent bleibt.

Hieraus ergibt sich die Einschätzung von InSpatio: „Die physische Welt ist 3D, und das Weltmodell muss es auch sein.“

Sie wandeln keine Videos in 3D um, sondern beginnen mit dem räumlichen Skelett. Zuerst bauen sie die geometrische Struktur auf, dann leiten sie die Perspektive ab, repräsentieren die Bewegung und simulieren die Veränderungen. Während die Großkonzerne versuchen, mit größeren Modellen und mehr Rechenleistung in den Pixelfehlern der realen Welt näher zu kommen, hat InSpatio den Suchraum durch die Raumgeometrie stark reduziert.

InSpatio - WorldFM ermöglicht die Echtzeit - 3D - Generierung und die Übereinstimmung in verschiedenen Perspektiven. InSpatio - World führt in eine erkundbare dynamische 4D - Welt. Topos generiert direkt eine hochwertige, bearbeitbare und interaktive Simulationsumgebung.

Diese Produktionsfähigkeiten deuten auf eine nicht - konsensfähige Einschätzung hin: Die 3D - native Repräsentation könnte zum Effizienzhebel für Weltmodelle werden.

Ständige Produktion von dynamischen 3D - Daten

Im Internet fehlen nicht Videos, sondern dynamische 3D - Daten mit Geometrie, Maßen, Materialien, Bewegung und Interaktionsbeziehungen.

Diese Art von Daten bestimmt, ob die physische KI von „gesehen“ zu „gelernt“ kommt. Roboter müssen sich an verschiedene Räume, Lagerhäuser und Stadtviertel anpassen und ihre Fähigkeiten verallgemeinern können. Dafür benötigen sie eine große Menge an reproduzierbaren, bearbeitbaren und verifizierbaren Raumzuständen. Autonomes Fahren muss in selten auftretenden Szenarien gut zurechtkommen, und dazu muss es in der Lage sein, dynamische Umgebungen kontrolliert zu generieren und neu zu kombinieren.

Deshalb ist derjenige, der kostengünstig dynamische 3D - Daten mit zeitlicher Dimension aufbauen kann, näher an der Oberschicht der physischen KI.

Das InSpatio - Team hat sich in der Richtung der Raumrechnung über 20 Jahre lang spezialisiert und hat sich langfristig mit SLAM, 3D - Rekonstruktion, NeRF, 3DGS, Grafik und Echtzeitsystemen beschäftigt. Sie können aus Beobachtungen der realen Welt wie Bildern, Videos und Daten von Tiefensensoren die Raumstruktur extrahieren und diese in eine lernbare, bearbeitbare und wiederverwendbare 3D - Repräsentation umwandeln.

Dieses System kann auch durch Simulation Daten mit physikalischen Markierungen generieren und so einen Datenkreislauf aus „reale Erfassung, 3D - Rekonstruktion, generative Verstärkung, Modelltraining und Iteration“ bilden.

Dies ist auch ein wichtiger Grund, warum die Investoren InSpatio geschätzt haben. Weltmodelle werden zur Infrastruktur der physischen KI. InSpatio verfügt über die seltene Fähigkeit, einen 3D - Technologiekreislauf und dynamische Daten aufzubauen. Diese Fähigkeiten haben die Chance, in Bereichen wie Robotik, autonomem Fahren, Spielen, Film und Fernsehen, XR und industrieller Simulation umgesetzt zu werden und so einen Wert als Basisplattform zu bilden.

Nach Ansicht von InSpatio ist das Weltmodell kein reines Algorithmusproblem. Es benötigt ein Generierungsmodell, sowie eine enge Verbindung von Grafik, 3D - Vision, physikalischer Simulation und Echtzeit - Raumrechnungssystem. Es behandelt nicht Texte oder Bilder, sondern Räume, die sich mit der Zeit verändern.

Dies bestimmt auch, dass das Team, das diese Aufgabe erledigt, sowohl Geometrie und Rekonstruktion verstehen als auch Deep Learning beherrschen und die Fähigkeit zur Lieferung kommerzieller Systeme haben muss.

Das InSpatio - Team liegt genau in diesem Schnittpunkt. Der Gründer Dr. Zhang Guofeng ist Professor am Nationalen Schwerpunktlabor für CAD & CG der Zhejiang - Universität und Nationaler ausgezeichneter Forscher. Er hat sich über 20 Jahre lang mit 3D - Vision und Raumrechnung/Intelligenz befasst und war einst Chefwissenschaftler der Digitalen Raumgeschäftseinheit von SenseTime. Er hat sowohl Spitzenforschungsergebnisse als auch umfangreiche praktische Erfahrungen in der industriellen Umsetzung. Der Mitgründer Dr. Liu Haomin war einst Forschungsdirektor bei SenseTime und hat sich langfristig mit der Technologieentwicklung und der industriellen Umsetzung von 3D - Vision und Raumrechnung/Intelligenz befasst. Der Professor Bao Hujun, Changjiang - Professor und Nationaler ausgezeichneter Forscher der Zhejiang - Universität, leitet ein führendes Forschungsunternehmen, das auch eine solide theoretische und technische Grundlage für die Konstruktion des Weltmodells und der Raumintelligenz von InSpatio bietet.

InSpatio hat nicht erst nach dem Auftauchen der Trendwelle in die 3D - Richtung gewechselt, sondern ist ein Team, das sich langfristig in den Bereichen Raumrechnung/Intelligenz und 3D - Vision entwickelt hat und auf den Moment gewartet hat, in dem die KI die Türen zur physischen Welt öffnet.

In der Vergangenheit dienten 3D - Technologien hauptsächlich der 3D - Modellierung, Digitalen Zwilling, Raumpositionierung und AR/VR. Jetzt, wenn Robotik, autonomes Fahren und Raumintelligenz alle ein interaktives Weltmodell wünschen, wird 3D zur Grundlage, um physikalische Eigenschaften an das Weltmodell anzukoppeln und physikalische Veränderungen zu simulieren.

Laut InSpatio werden die Gelder dieser Finanzierungsrunde hauptsächlich für die Modellentwicklung, die Infrastruktur für dynamische 3D - Daten, die Rechenleistungsinfrastruktur, die Branchenzusammenarbeit und die Personalrekrutierung verwendet. Anschließend wird es beschleunigt, die offizielle Version von Topos 1.0 herauszubringen und die Markenkooperationen in Bereichen wie Embodied Intelligence, Spielen und Film und Fernsehen zu starten. Für InSpatio ist dies eher das erste Signal für die Produktivierung der Technologiestrategie.

Während der Wettbewerb um das optische Erscheinungsbild der Videogenerierung noch im Gange ist, hat der nächste Wettbewerb um Weltmodelle bereits begonnen: Derjenige, der es der KI ermöglicht, die dynamische 3D - physische Welt zu lernen, hat die Chance, an der Oberschicht der Daten der physischen KI zu stehen.

Genau auf diese Eingangspforte setzt InSpatio.

Dieser Artikel stammt aus dem WeChat - Account „AnYong Waves“ und wurde von 36Kr mit Genehmigung veröffentlicht.