StartseiteArtikel

Das erste Jahr von Physical AI: Ein Wetteinsatz von Billionen Dollar über "wie die Welt funktioniert"

硅兔赛跑2026-04-03 17:24
Wenn man sagt, dass 2024 die Expansionsphase der großen Sprachmodelle war und 2025 die Phase der praktischen Erprobung von Agenten war, dann wendet sich die zentrale Erzählung in Silicon Valley im Jahr 2026 einem noch grundlegenderen Problem zu: Kann KI wirklich verstehen, „wie die Welt funktioniert“, und Aufgaben in der Realität erfüllen?

Im März 2026 gab das von Yann LeCun, einem Turing-Award-Gewinner und ehemaligen Chef-AI-Wissenschaftler von Meta, gegründete AMI Labs bekannt, dass es eine Seed-Runde von 1,03 Milliarden US-Dollar abgeschlossen hat.

Fast zur gleichen Zeit:

  • Das von Fei-Fei Li gegründete World Labs hat eine neue Runde von rund 1 Milliarde US-Dollar an Finanzierungen abgeschlossen.
  • Google DeepMind hat das Weltmodell Genie 3 veröffentlicht.
  • Tesla setzt die Implementierung des humanoiden Roboters Optimus in den Fabriken fort.

Diese Ereignisse treten nicht isoliert auf, sondern weisen gemeinsam auf einen klareren Trend hin: KI geht von der „Verständnis der digitalen Welt“ zur „Verständnis und Einwirkung auf die physische Welt“ über.

Wenn man sagt, dass 2024 die Expansionsphase der Large Language Models (LLMs) war und 2025 die Phase der Umsetzungsexploration von Agenten war, dann wendet sich die Kerngeschichte von Silicon Valley im Jahr 2026 einem tieferen Problem zu: Kann die KI wirklich verstehen, „wie die Welt funktioniert“, und Aufgaben in der Realität erfüllen?

Dies ist nicht nur eine Veränderung der technologischen Richtung, sondern auch eine Neuformulierung der industriellen Wertschöpfungskette. In den letzten zwei Jahren war das Hauptschlachtfeld des KI-Wettbewerbs hauptsächlich auf wenige hochschwellige Bereiche wie Modelle, Rechenleistung und Rechenzentren konzentriert. Wenn die KI jedoch wirklich in die physische Welt eintritt, findet der Wettbewerb nicht nur auf der Modellschicht statt, sondern erstreckt sich auch auf die Hardware, die Systemintegration, die Datenerfassung, die Simulationsumgebung, die Supply-Chain-Koordination und die Umsetzung in realen Szenarien. Mit anderen Worten, Physical AI bringt nicht nur einen punktuellen Durchbruch, sondern eine Umgestaltung eines ganzen Infrastruktursystems mit sich.

Genau aus diesem Grund könnte diese Welle von Veränderungen für die chinesische Welt, insbesondere für chinesische Unternehmer, Ingenieure und Anleger, nicht nur eine neue technologische Welle sein, sondern auch eine seltene strukturelle Chancenfenster. Im Gegensatz zum letzten Wettbewerb, der hauptsächlich von Ressourcen für die LLM-Trainierung und Superkapital dominiert wurde, ist Physical AI von Natur aus stärker auf Kompetenzen angewiesen: Man muss sowohl Algorithmen verstehen als auch Engineering beherrschen, sowohl Systemkoordination leisten als auch in die Fertigung, die Supply Chain und die industriellen Szenarien eindringen können. Teams, die sowohl technische Tiefe als auch Fähigkeiten zur Hardwarekoordination und ein globales industrielles Verständnis besitzen, haben eher die Chance, in diesem neuen Zyklus eine Schlüsselposition einzunehmen.

Mit anderen Worten, Physical AI ist nicht nur eine neue Geschichte, die in Silicon Valley erzählt wird, sondern auch ein Eintrittskarten, das chinesischen Menschen in der nächsten globalen technologischen Infrastrukturveränderung am wertvollsten sein könnte.

01 Der Jahrhundertstreit zwischen zwei Ansätzen: LLM-Strömung vs. Weltmodell-Strömung

In den letzten drei Jahren hat das Large Language Model (LLM) fast die Entwicklungspfade der KI dominiert. Sein Kernparadigma basiert auf der Vorhersage des nächsten Tokens (next-token prediction) anhand von riesigen Textmengen. Doch die Grenzen dieses Paradigmas werden allmählich sichtbar: Es kann die physische Welt zwar „beschreiben“, aber es fehlt ihm das ausführbare Verständnis. Es hat keine Fähigkeit, kausale Beziehungen und physikalische Beschränkungen zu modellieren, und seine Leistung bei kontinuierlichen Entscheidungen und langfristigen Aufgaben ist begrenzt.

Deshalb beginnt eine Gruppe, vertreten durch Yann LeCun, einen anderen Weg zu beschreiten: World Model (Weltmodell) – die Vorhersage von „Zuständen“ statt von „Texten“. Der Kernunterschied zwischen den beiden besteht darin, dass das LLM Texte als Lernobjekt hat und Sprache als Ausgabeform, im Wesentlichen bleibt es auf der Ebene des „Erkennens und Ausdrucks“. Das Weltmodell hingegen modelliert die Zustände der physischen Welt und zielt direkt auf den geschlossenen Kreislauf der Fähigkeiten „Wahrnehmung – Entscheidung – Ausführung“.

Dies ist nicht nur die Einschätzung von LeCun. Im ersten Quartal 2026 hat der Weltmodell-Ansatz fast gleichzeitig mehrere Schlüsselentwicklungen erlebt: AMI Labs hat mit JEPA als Kernarchitektur eine langfristige Strategie von „zuerst Forschung, dann Produkt“ verfolgt. World Labs hat mit dem Ansatz der „räumlichen Intelligenz“ versucht, dass die KI die Beziehungen, die Verdeckungen und die physikalischen Beschränkungen in der dreidimensionalen Welt wirklich versteht. Google DeepMind hat mit Genie 3 die Erzeugung dynamischer Umgebungen für die Echtzeitinteraktion vorangetrieben und diese für das Training von Agenten eingesetzt.

Die drei Unternehmen verfolgen verschiedene Wege, aber sie weisen alle auf den gleichen Trend hin: Der nächste Sprung der KI besteht nicht nur darin, bessere Texte zu generieren, sondern die Welt genauer zu modellieren und Aktionen in ihr auszuführen.

02 Der Hardware-Krieg: Wer baut den „Körper“?

Das Weltmodell löst das Problem des „Gehirns“ – wie die KI die physische Welt versteht. Aber das andere Schlachtfeld von Physical AI ist ebenfalls heftig: Wer baut den „Körper“?

Im Jahr 2026 hat die Branche der humanoiden Roboter von der „Labor-Demo“ in die Phase der „Serienfertigung in der Fabrik“ übergegangen. Einige Schlüsselzahlen:

Tesla Optimus Gen 3: Über 1.000 Geräte sind in den Gigafabriken in Texas und Fremont eingesetzt und führen Aufgaben wie die Handhabung und Montage von Teilen aus. Dies ist die größte industrielle Implementierung von humanoiden Robotern in der Geschichte der Menschheit. Tesla baut in Giga Texas eine Fabrik mit einer Jahreskapazität von 10 Millionen Einheiten, mit dem Ziel, die Kosten pro Gerät auf 20.000 US-Dollar zu drücken – vor zwei Jahren lag der Durchschnittspreis in der Branche noch zwischen 50.000 und 250.000 US-Dollar.

Boston Dynamics Atlas: Die Produktversion von Atlas auf der CES 2026 hat eine Höhe von 6,2 Fuß, 56 Freiheitsgrade und kann 110 Pfund schweres Gewicht heben. Noch bemerkenswerter ist seine „Seele“ – Boston Dynamics hat angekündigt, mit Google DeepMind zusammenzuarbeiten und das fortschrittliche Basis-Modell in Atlas zu integrieren. Die Jahreskapazität 2026 wurde bereits von Hyundai und Google DeepMind reserviert, und eine Fabrik mit einer Kapazität von 30.000 Einheiten pro Jahr wird geplant.

Figure 03: Figure AI hat mit einem Unternehmenswert von 39 Milliarden US-Dollar 1 Milliarde US-Dollar an Kapital beschafft. Sein Figure 02 hat in einem 11-monatigen Testlauf in der BMW-Fabrik in Spartanburg an der Produktion von über 30.000 BMW X3 beteiligt, über 90.000 Teile bewegt und insgesamt 1.250 Stunden betrieben. Figure 03 ist auf dieser Grundlage vollständig aufgewertet und ist mit über 48 Freiheitsgraden und einer proprietären Helix-AI-Plattform ausgestattet.

Mind Robotics: Im März wurde eine Finanzierung von 500 Millionen US-Dollar angekündigt, mit dem Fokus auf die industrielle Implementierung von KI-Robotern.

Aber in diesem Hardware-Wettbewerb taucht ein unterschätztes Element auf: Die dexteren Hände (Dexterous Hand).

Die Beine der humanoiden Roboter lösen das Problem der Bewegung, der Rumpf das Problem der Tragfähigkeit, aber was wirklich entscheidet, ob ein Roboter in einer komplexen Umgebung arbeiten kann, sind die Hände. Am Beispiel von Tesla Optimus: Die Kosten der Hände machen 17 % der Gesamtkosten des Roboters aus, etwa 9.500 US-Dollar – das ist die teuerste einzelne Komponente.

Die Schwierigkeit bei den dexteren Händen liegt in einem grundlegenden Widerspruch: Der Raum in den Fingern ist zu klein, um große Motoren unterzubringen. Kleine Motoren haben jedoch nicht genug Drehmoment, daher sind Getriebe mit hohem Übersetzungsverhältnis erforderlich, um die Kraft zu verstärken. Aber diese Getriebe bringen Trägheitsverzerrungen, Verlust der Kraftrückmeldung und mechanischen Verschleiß mit sich – diese drei Probleme können den Lernprozess der KI auf physikalischer Ebene „vergiften“.

Eine Reihe neuer Unternehmen versucht, diese Engstelle zu überwinden. Einige verwenden eine Axialflussmotor-Architektur, um das Übersetzungsverhältnis von 288:1 auf 15:1 zu reduzieren und eine vollständig rücktreibbare dexter Hand zu realisieren. Andere entwerfen synchron Datenerfassungshandschuhe, damit die menschlichen Bedienungsdaten verlustfrei auf die Roboterhardware übertragen werden können. Diese scheinbar kleinen Hardware-Innovationen könnten zu einer der wichtigsten Infrastrukturen des gesamten Physical-AI-Ökosystems werden.

03 NVIDIA: Der „Schaufelverkäufer“ in der Physical-AI-Zeit

Bei jeder technologischen Welle gibt es einen „Schaufelverkäufer“.

In der Zeit der Large Language Models hat NVIDIA mit seiner GPU und der CUDA-Ekologie den größten Nutzen gezogen. In der Physical-AI-Zeit wird seine Rolle weiter aufgewertet – es bietet nicht nur Rechenleistung, sondern versucht, ein ganzes Infrastruktursystem für die Roboterzeit aufzubauen.

Auf der GTC-Konferenz im März 2026 hat NVIDIA eine ganze Reihe von Plattformfähigkeiten rund um Physical AI vorgestellt: darunter das Visuallinguistische-Aktionsmodell Isaac GR00T für humanoiden Roboter, die Cosmos-Serie zur Erzeugung von großen Mengen synthetischer Daten sowie eine Toolchain für Training, Bewertung und Implementierung (wie Isaac Lab und OSMO). Diese Fähigkeiten sind keine einzelnen Tools, sondern bilden schrittweise ein ganzes Entwicklung- und Betriebssystem.

Mehrere Roboterunternehmen wie Boston Dynamics, Caterpillar, Franka Robotics, LG und NEURA Robotics haben bereits auf der NVIDIA-Plattform ihre nächsten Systeme entwickelt.

Die Strategie von NVIDIA ist sehr klar:

Es beteiligt sich nicht direkt an Endprodukten, sondern wird zur untersten Ebene der Branche.

Wenn Physical AI eine Stadt ist, die gerade gebaut wird, dann liefert NVIDIA gleichzeitig Zement, Stahl und Stromnetz.

04 Daten: Das scarcste „Öl“ von Physical AI

In der Welt der Large Language Models bietet das Internet fast unbegrenzte Textdaten. Aber in Physical AI taucht ein grundlegendes Problem auf:

Manipulationsdaten aus der realen Welt sind äußerst rar.

Dies macht Daten zu einer der wichtigsten und scarcsten Ressourcen in der gesamten Branche.

Derzeit werden hauptsächlich drei Wege in der Branche erkundet.

Der Weg der realen Daten. Physical Intelligence ist ein Beispiel dafür. Sein π0-Modell basiert auf über 10.000 Stunden echter Roboterbedienungsdaten, deckt verschiedene Roboterformen und Aufgabentypen ab und kann komplexe Manipulationen (wie das Falten von Kleidung, das Zusammenbauen von Kartons usw.) ausführen. Seine Open-Source-Strategie bietet im Wesentlichen der Branche eine „Manipulations-Vor-Trainingsbasis“.

Der Weg der synthetischen Daten. Google DeepMinds Genie 3 und NVIDIAs Cosmos versuchen, über Weltmodelle eine große Anzahl von Simulationsumgebungen zu erzeugen, im virtuellen Raum zu trainieren und dann auf die reale Welt zu übertragen. Die Hauptherausforderung dieses Wegs liegt in der Lücke zwischen Simulation und Realität (sim-to-real gap), aber mit der Verbesserung der Simulationsgenauigkeit wird diese Lücke allmählich kleiner.

Der Weg der menschlichen Fernsteuerung. Über Datenerfassungshandschuhe und andere Geräte werden menschliche Bedienungen direkt auf das Robotersystem übertragen. Diese Methode liefert die höchste Datenqualität, aber es gibt immer noch Einschränkungen bei den Kosten und der Skalierbarkeit.

Tesla versucht einen hybriden Weg: Es sammelt kontinuierlich menschliche Bedienungsver