StartseiteArtikel

Die Verbreitung von MR-Geräten ist die Simulationsgrundlage von Li Feifings Weltmodell

Kevin2026-06-08 12:00
Das Ausführungsterminal des Weltmodells ist kein Mobiltelefon, sondern ein MR-Gerät.

Kürzlich ist ein Artikel von Fei-Fei Li viral geworden. In diesem ausführlichen Artikel wird die Struktur des Weltmodells und die erforderlichen Komponenten vorgestellt.

Es wird erklärt, dass echte KI nicht nur Text sein sollte. Fei-Fei Li gehört zweifellos zur ersten Gruppe, die das Weltmodell voranbringt.

Dies ist der Link zum Originalartikel. Ich habe ihn ins Chinesische übersetzt.

„Funktionale Klassifikation des Weltmodells“

Obwohl Fei-Fei Li das Weltmodell befürwortet, wird in allen ihren öffentlichen Äußerungen nie das Vision Pro oder MR-Geräte erwähnt.

Am häufigsten spricht sie über die Beziehung zwischen Weltmodell und Embodied Intelligence. Sie kennt die Branche der MR-Geräte und deren Vor- und Nachteile kaum.

Heute möchte ich auf die Raumrechengeräte eingehen. Geräte wie das Apple Vision Pro, AndroidXR und das PICO Swan sind die Grundlage für das Weltmodell.

Nur diese Geräte können Daten liefern, die der Mensch bisher nicht hatte: Raum, Tiefe und Interaktionsdaten. Wenn MR-Geräte verbreitet werden und die Nutzungszeit der Benutzer zunimmt, werden es immer mehr Raumfotos und -videos. Dann können wir Simulatoren trainieren und erstellen.

In Feifei Lis neuem Artikel heißt es: Renderer sind relativ ausgereift. Beispiele sind ChatGPT Image2 und Gemini. Simulatoren benötigen jedoch Raum- und Tiefendaten.

All dies kommt aus der Raumrechnung. Wer über viele Raumdaten verfügt, kann das Weltmodell schneller trainieren und generieren.

Aktuell sammeln andere Unternehmen menschliche Erstpersonendaten, aber die Datenqualität ist schlecht, weil es keine MR-Geräte-Chips und -Betriebssysteme gibt.

Beispielsweise beginnt ein amerikanisches Unternehmen in Indien, Erstpersonendaten von Arbeitern zu sammeln, um Roboter zu trainieren. Aber aufgrund fehlender standardisierter Raumtechnologie-Betriebssysteme wie Vision OS und AndroidXR sind die gesammelten Daten nicht sehr genau.

Die Datenpräzision des Apple Vision Pro kann im Millimeterbereich liegen. Normale Geräte haben aufgrund ihrer Sensoren und Kameras, sowohl auf algorithmischer als auch auf hardwaremäßiger Ebene, einen großen Abstand zu Raumbetriebssystemen. Deshalb sind die gesammelten Daten von geringer Qualität. Die Datenqualität auf dem Vision Pro ermöglicht es Robotern, physikalische Operationen in der realen Welt auszuführen.

Das heißt, MR-Geräte sind die Fernbedienung für die noch nicht existierende Roboter-Großmodelltechnologie, zumindest für die nächsten 3 Jahre.

Wie Fei-Fei Li sagt, ist die Menge an realen Welt-Daten um mehrere Größenordnungen geringer als die der Internetdaten. Das stimmt sehr.

Viele Menschen haben noch nie Raumfotos oder -videos gesehen. Man kann sie nur in MR-Geräten betrachten. Selbst in den offiziellen Apple-Werbefotos ist es für normale Menschen schwer, den 3D-Raumeffekt zu spüren.

Es gibt fast keine Internet-Apps für die Raumrechnung, geschweige denn Daten.

Beim Entwickeln von Raumrechnungs-Apps haben wir festgestellt, dass es in der App Store von Vision OS fast keine vernetzten Raumrechnungs-Apps gibt, obwohl Apple offiziell behauptet, dass es Tausende von nativen Apps auf Vision OS gibt.

Abgesehen von den Singleplayer-Versionen und Demos von Vision OS gibt es nur sehr wenige Apps, die wirklich dauerhaft genutzt werden können.

Das Wachstum der MR-Gerätebranche wird erst 2027 einsetzen. Es ist noch weit entfernt.

Fei-Fei Li ist die Begründerin und Promoterin des Weltmodells, aber sie weiß nicht, dass die Entwicklung der MR-Gerätebranche die Grundlage für ihr Weltmodell ist, nämlich die Hardwarebasis.

Sie versteht nicht die Essenz der Mensch-Maschine-Interaktion. Ohne Hardware-Endgeräte und Mensch-Maschine-Interaktion würde das Weltmodell zu einer rein akademischen Fragestellung werden. Um das Weltmodell tatsächlich nutzen und trainieren zu können, braucht man die Betriebs-Endgeräte. XR- oder AR-Geräte, die auf der ersten Blickrichtung der Brille basieren, können nicht nur die Umgebung, sondern auch die Raumtiefe, -distanz und -zeit wahrnehmen.

Um das Weltmodell zu beschleunigen, muss man zunächst die Verbreitung von MR-Geräten-Endgeräten fördern. Aus unseren internen Informationen wissen wir, dass ab 2026 von Apple Vision Pro über AndroidXR-Geräte bis hin zu Projekten wie ByteDance's Project Swan die Anzahl der aufgenommenen Raumvideos und -fotos stark zunehmen wird.

Raumvideos sind ein neues Datenformat, das nicht nur flächigen Inhalt, sondern auch Tiefe und Umgebungs-Mesh-Gitter enthält. Diese Daten werden die Datenbasis für den Weltmodell-Simulator bilden.

Zurzeit können fast alle MR-Geräte mit Raumbetriebssystemen Raumvideos und -fotos aufnehmen. Beispielsweise unterstützt die neueste AndroidXR-Systemversion die Umwandlung von YouTube-Videos in 3D-Videos.

Die Fähigkeit von Raumrechengeräten, Videos in Raumvideos und -fotos umzuwandeln, ist eine Standardfunktion von MR-Geräten und Raumbetriebssystemen.

Selbst in der amerikanischen Apple-Zentrale halten die Verkäufer das Vision Pro für ein VR-Gerät.

In der Apple-Zentrale verstehen viele Leute das Vision Pro immer noch nicht. Selbst die Verkäufer können nur die Grundfunktionen bedienen. Sie waren erstaunt, als sie hörten, dass unser Team an der Entwicklung des Raum-Internets arbeitet.

Weil sie nicht wissen, wie viel Potenzial die nächste Rechenplattform und das Vision Pro haben, beschränken sie sich auf die wenigen Standard- oder Lehr-Apps im Apple Store.

Durch die Raumrechnungstechnologie habe ich schließlich im Apple Visitor Center mit Freunden aus dem amerikanischen Team über Raumrechnung gesprochen und uns über die Produkte der Firma unterhalten.

Man kann sagen, dass wir uns durch die Raumrechnungstechnologie gut interagieren können, auch wenn wir uns nie getroffen haben. Es fühlt sich fast an, als wären wir zusammen.

Leider ist diese Erfahrung im Apple-Showroom nicht möglich, weil aus Datenschutzgründen die Persona-Funktion im Offline-Showroom nicht verfügbar ist.

Man muss sich das Gerät kaufen und selbst aufnehmen.

Am Ende ist es ironisch, dass in den Hotels in der Nähe der WWDC die chinesischen Rentner San Francisco erobert haben. Sie stehen im krassen Kontrast zu uns Tech-Praktikern auf der WWDC. Einerseits ist es das weltweite Tech-Zentrum, andererseits kommen auch chinesische Rentner zum Urlaub.

Das war meine heutige Präsentation.

Dieser Artikel stammt aus dem WeChat-Account „Kevin's kleine Veränderungen der Welt“ (ID: Kevingbsjddd). Autor: Kevin's Geschichten. 36Kr hat die Veröffentlichung autorisiert.