An der Schwelle des AI-Wachaufs: Finde das Gehirn, das die physische Welt besser versteht.
Künstliche Intelligenz (KI) ist eine der mächtigsten Kräfte, die die heutige Welt formen. In der öffentlichen Wahrnehmung ist KI ein intelligentes Anwendungs- oder ein einzelnes Modell. Tatsächlich ist sie jedoch wie Elektrizität und das Internet eine zukünftig unverzichtbare Infrastruktur. Die Zukunft der KI ist eine Frage, die jeder von uns bedenken sollte. Um die Zukunft der KI zu verstehen und die grundlegenden Veränderungen im Bereich der Computation zu betrachten, ist es am besten, sich an die erste Prinzipien zu halten, d. h. von den ursprünglichen Prinzipien aus zu denken.
Als langjähriger Investor in die internationale Spitzentechnologie bin ich mir bewusst, dass wir am Vorabend des Aufwachens der KI stehen. Was wir tatsächlich erleben, ist nicht nur die Evolution von Algorithmen, sondern auch eine Revolution in der Zeit, in der sich die Frage "Wie setzt man KI in die Realität um?" stellt.
Was sind die grundlegenden Faktoren, die bestimmen, ob KI aus dem Labor in die Billionenbranche der realen Wirtschaft übergeht?
Die Antwort lautet: Embodied Intelligence (eingebettete Intelligenz). In diesem Artikel werde ich auch von den drei Ebenen "Anwendungsebene, Modellschicht, Infrastrukturschicht" aus Huang Renxuns Fünf-Schichten-Architektur ausgehen, um zur Essenz der KI und zum Produkt selbst zurückzukehren und die Evolution von Algorithmen zu analysieren und zu diskutieren, wie KI-Intelligenz in die Haushalte gelangen kann.
Die "Kleinhirnfunktion" der Embodied Intelligence hat bereits die Spitze erreicht
Die "Anwendungsebene" ist der Ort, an dem der wirtschaftliche Wert tatsächlich entsteht, z. B. Embodied Intelligence, selbstfahrende Autos, Industrieroboter usw.
2026 wird das offizielle "Jahr der Markteinführung" für Embodied Intelligence. Bevor die allgemeine Intelligenzalgorithmen reif sind, ist die Schaffung eines guten Körpers die Grundlage für Embodied Intelligence. Embodied Intelligence hat zwei klare Entwicklungsrichtungen: Die eine ist die Fähigkeit, Aufgaben des Gehirns zu zerlegen und auszuführen, die andere ist die Bewegungsfähigkeit, d. h. die Ebene des Kleinhirns. Die Frühlingsfeier hat die Bewegungsfähigkeit eines der besten humanoiden Roboterprodukte unseres Landes gezeigt: Laufen, Springen, Gleichgewicht halten, sich an komplexe Geländebedingungen anpassen. Die Bewegungsfähigkeit des G1-Roboters hat zweifellos das internationale Spitzenniveau erreicht, und die hochwertige und präzise Fertigung von Körper, Roboterarm und Aktuator hat die Anerkennung der Welt erhalten.
Aus Sicht des Investments hat der Bereich der Embodied Intelligence in Bezug auf die Bewegungsfähigkeit noch viel Raum für Fantasie, insbesondere die dexteren Hände. Die dexteren Hände werden auch als der "Eingang" der Embodied Intelligence bezeichnet. Die Kernschwierigkeit besteht darin, diese Hand zu führen, um die gewünschten Funktionen zu realisieren. Beispielsweise müssen unterschiedliche Drücke auf einen Becher aus Keramik und einen aus Glas, auf ein rohes und ein gekochtes Ei ausgeübt werden. Die von Händen desselben Typs gesammelten Daten können unterschiedlich sein. Sobald es um feine und gerichtete Manipulationen geht, hängt es stark von der Stabilität und Konsistenz der Hardware ab.
Wir empfehlen derzeit, uns auf visuelle taktile Sensoren zu konzentrieren. Sie stammen aus demselben Ursprung wie die visuelle Wahrnehmung und eignen sich gut für die Integration in das Modell. Sie haben eine höhere Auflösung und bieten einen neuen Weg für die Fusion der Wahrnehmung. Dies ist die Richtung, die wir Investoren für die dexteren Hände besonders interessant finden. Der gesamte Sektor hat einen enormen Raum für Verbesserungen, sowohl in der Hardware als auch in der Software.
Die "Kleinhirnfunktion" der Embodied Intelligence hat bereits weltweit die Spitze erreicht. Als Nächstes kommt die Fähigkeit des "Gehirns", d. h. der kooperative Durchbruch zwischen großen KI-Modellen und Embodied Intelligence. Dies ist ein relativ klarer Gewinnbereich in den nächsten 3 - 5 Jahren.
Das Gehirn versteht die Welt - Der Paradigmenwechsel von LLM zu VLA und Weltmodellen
Dass Roboter tanzen und Kungfu können, hängt von der Bewegungskontrolle und der Hardware des Körpers ab. Um einen Roboter tatsächlich selbständig arbeiten zu lassen, ist es jedoch das "Gehirn" - das KI-Modell, auf das man sich verlassen muss.
Die Wende in der Entwicklung von KI-Modellen ist deutlich zu erkennen. Man kann sagen, dass der Weg der großen Sprachmodelle von OpenAI nur halb gegangen ist. Das Ziel von KI-Modellen ist keinesfalls, dass die KI nur mit Benutzern auf dem Bildschirm spricht. Die Textfähigkeiten der großen Sprachmodelle sind zu würdigen, aber sie zeigen auch die grundlegende Beschränkung, dass sie von der physischen Welt abgekoppelt sind. Sprachmodelle müssen nur die statistischen Beziehungen innerhalb von Texten lernen und müssen die physische Welt nicht verstehen. Die Gewinne aus den großen Sprachmodellen sind bereits fast aufgebraucht, was zur Entstehung des derzeitigen Mainstream-VLA-Modells geführt hat. Man möchte, dass die KI Hände und Füße bekommt und mit Robotern physisch kooperiert, um die Welt zu übernehmen.
VLA - Vision-Language-Action. Das VLA-Modell hat die Barrieren zwischen "Was man sieht", "Was man versteht" und "Was man ausführt" durchbrochen. Doch im Laufe der praktischen Anwendung hat sich schnell das Problem gezeigt, dass das große VLA-Modell "nicht ausreicht". Das VLA-Modell basiert im Wesentlichen auf der Trainierung mit großen Mengen an Szenariodaten. Es hat jedoch nicht die Weisheit des Menschen, fehlt an Generalisierungsfähigkeit und an realen Interaktionsdaten. Es ist ein talentierter Ausführender, aber nur ein "Ausführender".
Aus Sicht des Investments haben die Modelle, die auf der Anhäufung von Daten und Rechenleistung basieren, ihre Grenzen erreicht. Kurzfristig sind die großen Sprachmodelle immer noch die Hauptakteure im Geschäftsfeld, mit starker Monetarisierungsfähigkeit und klaren Anforderungen. Die Weltmodelle des räumlichen Intelligenzraums sind jedoch zum neuen Investitionsfokus geworden. Der potenzielle Wert der Weltmodelle ist weit über das hinaus, was LLM und VLA zu bieten haben. Dies ist für die globalen Investoren ein Markt von Billionen von Euro in der realen Wirtschaft.
Der Kern der Weltmodelle ist ein kausales Denken. Man lässt das Modell zunächst intern die Folgen von Aktionen simulieren, d. h. was passiert, wenn eine bestimmte Aktion ausgeführt wird. Dadurch bekommt das Modell die Fähigkeit zu denken. Dies ist der größte Unterschied zum VLA-Modell, das lediglich auf das Erkennen von Szenarien und das Auslösen von Befehlen basiert.
Li Feifei hat in diesem Jahr den normalen Menschen intuitiv verständlich gemacht, was Weltmodelle sind. Die Mitarbeiter haben einfach mit der Kamera eines Mobiltelefons ein Büro gescannt und auf dem Computer ein identisches, hochauflösendes 3D-Modell erstellt, eine reale digitale Welt, in die man mit VR-Brille hineingehen kann. Das 3D-Weltgenerierungsmodell Mable hat gezeigt, dass es aus einem Foto eines Fensters die "Frühlingsblüten" hinter dem Fenster erfinden kann. Dies gehört zur kognitiven Fähigkeit des Menschen. Das Echtzeit-Frame-Modell (Real Time Frame Model) generiert in Echtzeit Bilder, während der Benutzer agiert. Jedes Frame wird fast verzögerungsfrei mit der Bewegung aktualisiert. Dies bedeutet, dass die meisten Menschen in der von der KI generierten unendlichen Welt spielen können. Überall, wohin man geht, generiert die KI die Welt. Dies ist eines der Echtzeit-Interaktions-Weltmodelle mit den geringsten Speicheranforderungen. Die massenhafte Umsetzung von Embodied Intelligence erfordert eine Simulationswelt, in der man üben kann. Die von World Labs generierten 100 Millionen 3D-Welten, die den physikalischen Gesetzen entsprechen, sind wie eine Spitzenschule. Die Entstehung von World Labs markiert den Beginn der Versuche der KI, die Physik zu verstehen. Dies ist der unvermeidliche Weg zur allgemeinen Embodied Intelligence und zu Robotern, die körperliche Arbeit verrichten können.
World Labs hat in nur zwei Jahren bereits einen Unternehmenswert von 5 Milliarden US-Dollar erreicht und ist ein Leitunternehmen im Bereich des räumlichen Intelligenz- und Ereignismodells. Gleichzeitig beschleunigt auch Google, das weltweit führende Unternehmen im Bereich der Internettechnologie, die Planung für die KI-Zeit. Google's Strategie besteht darin, eine allgemeine KI-Gehirnplattform zu entwickeln, um die Generalisierung und Umsetzung der KI zu erreichen. Einfach ausgedrückt, will Google eine Android-Plattform für Roboter schaffen und sie in die Roboter einbauen. Wenn die Plattform ein Weltmodell hat, hat der Roboter einen Simulator in seinem Gehirn. Er kann im digitalen Zwillingsmodell zu einem Bett gehen, die Decke ordnen, den Kühlschrank öffnen, einen Becher nehmen und Wasser einfüllen und dabei tausendmal fehlschlagen, bevor er es im realen Leben versucht. In der virtuellen Simulation kann man die KI/Embodied Intelligence mit einer riesigen Menge an Daten schnell trainieren und die Strategien von der virtuellen Welt in die reale Welt übertragen. Dies wird das berühmte Moravec-Paradox in der Embodied-Intelligence-Branche lösen - es ist leicht, die KI zu einem menschlichen Niveau an logischem Denken zu bringen, aber es ist schwierig, die KI wie ein einjähriges Kind laufen zu lassen.
Es stellt sich nun die Frage, ob die End-to-End-, VLA- und Weltmodelle einander widersprechen oder in Konflikt stehen. Die Antwort auf diese Frage besteht darin, die drei Modelle zu integrieren.
Für die massenhafte Umsetzung von Embodied Intelligence ist die End-to-End-Methode bereits ein Konsens in der Branche. Ihr Kern besteht in der Nachahmungslearning. Die Nachahmungslearning bringt jedoch zwei Probleme mit sich: Es fehlen Daten, um seltene Szenarien abzudecken, und die Nachahmung ist zu schwierig, da es keine kausale Schlussfolgerungsfähigkeit gibt.
Um das Datenproblem zu lösen, kann man Weltmodelle verwenden. Unter dem End-to-End-Hauptnetzwerk kann man mit einem Welt-Simulator virtuelle Daten für seltene Szenarien generieren und dann mit verstärktem Lernen eine Nachbearbeitung durchführen. Oder man kann eine virtuelle Welt erstellen, in der das Modell alle Probleme löst, und am Ende am Terminal Videoeingang und Steuersignalausgang realisieren. Im Wesentlichen handelt es sich bei all diesen Methoden um Weltmodelle, aber es ist nicht einfach, virtuelle Daten zu generieren, die der realen Welt ähneln. Zeit und Kosten sind große Hindernisse. Die 3D Gaussian Splitting (3D GS) ist derzeit die beste Wahl.
Die 3D GS erstellt aus realen Szenarien trainierbare, renderbare und feinabstimmbare 3D-Szenarien und passt sie dann anhand realer Daten an. Beispielsweise kann das Weltmodell beim Öffnen des Kühlschrankes plötzlich einen Apfel fallen lassen oder einen Becher herunterstürzen lassen. Dies sind unwahrscheinliche Ereignisse in der realen Welt. Auf diese Weise werden die Probleme gelöst, dass es wenig Daten für seltene Szenarien gibt, dass die Generierung schwierig ist und dass die Daten ungenau sind.
Der Schlüssel für die KI, um zur allgemeinen Künstlichen Intelligenz (AGI) zu gelangen, liegt in der Datenverarbeitung. Abweichungen in der Qualität und Quantität der eingegebenen Daten können dazu führen, dass das Modell "Halluzinationen" hat und die Ausgabe ungenau ist. Die Daten müssen zuerst sortiert und gereinigt werden, bevor sie in das Modell eingesetzt werden, damit das, was dem Modell "gefüttert" wird, einen Wert hat. Im Bereich der Datenaufbereitung werden in Zukunft sicher einige Hauptakteure auftauchen.
Allerdings löst dies nur das Problem des fehlenden Datenschatzes, nicht das Problem der Schlussfolgerungsfähigkeit. Wir kommen wieder zum Kern der Schlussfolgerungsarchitektur des VLA-Modells - indem man das Problem in Teile zerlegt und sie einzeln löst, indem man ständig Tokens hinzufügt und die Informationen Schritt für Schritt weiterleitet, entwickelt das Modell im Laufe des Ableitungsvorgangs allmählich die Fähigkeit zum Verständnis. Der Schlussfolgerungsprozess von 3D GS bis VLA findet in einem integrierten nativen Netzwerk statt und wird in der Cloud durchgeführt. Am Terminal wird weiterhin das End-to-End-Modell verwendet, um das Problem der großen Architektur zu lösen. Die beiden zentralen Probleme der End-to-End-Nachahmungslearning, nämlich das Fehlen von Daten für seltene Szenarien und die fehlende Schlussfolgerungsfähigkeit, werden auf diese Weise geschickt gelöst. Dies ist auch eine der von der Branche der selbstfahrenden Fahrzeuge und der Embodied Intelligence anerkannten besten Lösungen. Allgemeingültigkeit und Vorhersagefähigkeit sind die echten Schutzmauern der Embodied Intelligence, die es ermöglichen, dass die Embodied Intelligence in die Haushalte kommt.
Die globalen Kapitalriesen sind bereits in die KI-Branche eingestiegen. Im Jahr 2025 hat die globale KI-Start-up-Szene 48 % des gesamten Risikokapitals angezogen und stürmt heftig auf die Weltmodelle mit Kerntechnologiebarrieren zu. Die Weltmodelle sind die "bevorzugte Strecke" für die globale KI-Investition. Wenn die Technologie der Embodied Intelligence einen Durchbruch erzielt, werden auch mehr als 50 % der Weltressourcen in diesen Bereich fließen. Die KI wird der größte treibende Faktor der globalen Wirtschaft sein. Als Investor in die Spitzentechnologie ist es wichtig, die Entwicklungstrends im Bereich der harten Technologien in den nächsten 5 - 10 Jahren oder sogar länger zu erkennen.
Die Investition in Weltmodelle bedeutet im Wesentlichen, in die "Intuition" der KI für die physische Welt zu investieren. Hinter dieser Intuition muss der Investor als Nächstes die Chancen, die mit dem Land einhergehen, antizipieren, die ganze Zeit hinweg Forschung und Nachverfolgung betreiben, sein Wissen über die Zielbranche vertiefen und jedes Detail nutzen. Man muss in wahrer Bedeutung die wichtige Rolle der Weltmodelle verstehen. Sie sind der Kern für das Verständnis der physischen Welt und die Realisierung der Fähigkeiten von allgemeinen Robotern und der Schlüsselweg zur AGI. Die plötzlichen Risiken auf dem Markt werden den Fortschritt und den Durchbruch der KI-Technologie nicht aufhalten und die nationale Politik, die Kapitalmärkte zu stärken und die Entwicklung der neuen produktiven Kräfte zu unterstützen, nicht ändern.
Die Rechenleistungssäule der KI-Welt - Die Rechenzentren
Es gibt zwei Engpässe in der "ChatGPT-Zeit" der Embodied Intelligence. Der größte Schmerzpunkt ist das oben erwähnte Weltmodell, der zweite ist die Datenlage. Das Training der Embodied Intelligence erfordert eine riesige Menge an Trainingsdaten. Die Datenerfassung mit echten Geräten ist ineffizient. Um ein Weltmodell zu erstellen, das die ganze Welt aufnehmen kann, braucht man ein Rechenzentrum, das so groß ist wie die Welt.
Dieses Rechenzentrum ist die dritte Schicht der "AI 5-Layer Cake", die "Infrastrukturschicht", die Land, Stromversorgung, Netzverbindung usw. umfasst. Es ist ein System, das unzählige Prozessoren zu einem einzigen Computer integriert - die KI-Fabrik, d. h. das Rechenzentrum.
Die Weltmodelle müssen die physische Welt in Echtzeit und mit hoher Präzision modellieren und Vorhersagen treffen. Dies stellt extrem hohe Anforderungen an die Rechenleistung, die Speicherung und die Bandbreite. Die Rechenzentren sind die Basis für ihren Betrieb. Es gibt mehrere Gründe, warum die Weltmodelle größere und stärkere Rechenzentren benötigen.
Erstens basieren die traditionellen großen Sprachmodelle hauptsächlich auf Texten. Die vorhandenen Internet-Corpora sind groß und leicht zu annotieren. Die Weltmodelle benötigen jedoch riesige Speichercluster und schnelle Lese- und Schreibarchitekturen. Eine Sekunde an hochauflösendem Video entspricht etwa Tausenden von