StartseiteArtikel

Was ist mit der Zusammenarbeit zwischen Alibaba und NVIDIA an Physical AI los?

字母榜2025-09-26 09:25
Alibaba hat angekündigt, dass seine KI-Plattform den kompletten NVIDIA Physical AI-Software-Stack in das Menü der Entwickleroptionen aufnehmen wird.

Auf der Yunqi-Konferenz hat Alibaba angekündigt, dass seine Künstliche-Intelligenz-Plattform den kompletten NVIDIA Physical AI (Physikalische KI)-Software-Stack in das Menü der Entwickleroptionen aufnehmen wird. Diese scheinbar technische Ankündigung markiert tatsächlich einen wichtigen Wendepunkt in der Entwicklung der Künstlichen Intelligenz. Huang Renxun, CEO von NVIDIA, hat auf der CES 2025-Konferenz deutlich gemacht: Die nächste Frontiers der KI ist die Physikalische KI, die ungeheuerliche Potenziale und Chancen birgt.

Nach Marktforschungsdaten wird der weltweite Markt für Industrieroboter vom Wert von 154,4 Milliarden Yuan im Jahr 2024 auf 300 Milliarden US-Dollar im Jahr 2025 wachsen. Der Anwendungsmarkt für KI-Technologie in Industrierobotern expandiert dabei mit einer durchschnittlichen jährlichen Wachstumsrate von 21,9%.

Die meisten Industrieroboter gehören derzeit noch zu den traditionellen Automatisierungsgeräten, die festgelegte Bewegungen nach voreingestellten Programmen ausführen. Sobald sich die Umgebung ändert – etwa wenn die Position eines Teils verschoben oder seine Form geringfügig verändert ist – muss der Roboter manuell neu programmiert werden. Physikalische AI-Roboter können dagegen diese Veränderungen autonom anpassen und Aufgaben durch Echtzeitwahrnehmung und -entscheidung erfüllen.

Das Wachstum, das aus der Aufrüstung von traditionellen Industrierobotern zu Physikalischen AI-Robotern entsteht, ist der Grund für die Zusammenarbeit zwischen Alibaba und NVIDIA. Bevor wir jedoch weitergehen, müssen wir uns zunächst die Frage stellen: Was ist Physikalische AI?

A

Wenn man Physikalische AI in einem Satz zusammenfassen müsste, wäre es eine Technologie, die die Künstliche Intelligenz aus dem Bildschirm in die physische Welt bringt.

Nehmen wir ein einfaches Beispiel: Traditionelle KI kann eine Tasse erkennen und Ihnen sagen, was es ist; Physikalische AI kann dagegen nicht nur die Tasse erkennen, sondern auch ihr Gewicht und Material bestimmen, die Kraft berechnen, die zum Greifen erforderlich ist, und vermeiden, dass die Flüssigkeit darin umgestürzt wird. Dieser Unterschied bestimmt, dass die Anwendungsgebiete der beiden völlig unterschiedlich sind.

Huang Renxun betont, dass der Kern von Physical AI die Kombination von physikalischen Gesetzen und Künstlicher-Intelligenz-Technologie ist. Durch die Integration echter physikalischer Regeln wird der von der KI generierte Inhalt optimiert, damit er den Logik und Gesetzen der realen Welt entspricht. Physikalische AI, wie der Name schon sagt, ist die Kombination von Physik und KI, d. h., der von der Künstlichen Intelligenz zurückgegebene Inhalt muss den physikalischen Gesetzen entsprechen.

Das Konzept der Physikalischen AI ist nicht über Nacht entstanden, sondern das Ergebnis jahrelanger technologischer Akkumulation und strategischer Planung von NVIDIA. Bereits 2021 begann NVIDIA auf der GTC-Konferenz über das Konzept der Physikalischen AI zu sprechen, aber es wurde erst auf der GTC 2024-Konferenz im März 2024 als Kernstrategie vorgestellt. Huang Renxun hat auf dieser Konferenz erstmals das Vision der Physikalischen AI systematisch dargelegt und die dazugehörigen Technologieplattformen und Toolchains veröffentlicht.

Nach Huang Renxun hat die Entwicklung der KI drei klare Phasen durchlaufen: Zunächst war es die Wahrnehmungs-KI (Perceptual AI), die Bilder, Texte und Geräusche verstehen kann. Repräsentativ für diese Phase sind die Computervision- und Spracherkennungstechnologien. Dann folgte die Generative KI (Generative AI), die Texte, Bilder und Geräusche schaffen kann, repräsentiert durch ChatGPT, DALL-E usw. Jetzt stehen wir am Beginn der Ära der Physical AI (Physikalische KI), in der die KI nicht nur die Welt verstehen, sondern auch wie ein Mensch schließen, planen und handeln kann.

Die technologische Grundlage der Physikalischen AI beruht auf drei Schlüsselkomponenten: Weltmodell (World Model), Physiksimulations-Engine (Physics Simulation Engine) und Embodied Intelligence Controller (Körperliche Intelligenz-Steuerung). Das Weltmodell ist der kognitive Kern der Physikalischen AI. Anders als traditionelle Sprach- oder Bildmodelle muss es ein vollständiges Verständnis des dreidimensionalen Raums aufbauen, einschließlich der geometrischen Form, der Materialeigenschaften, des Bewegungszustands und der Wechselbeziehungen von Objekten. Technisch wird dies normalerweise durch Methoden wie Neural Radiance Fields (NeRF), 3D Gaussian Splatting oder Voxel Grid zur Raumdarstellung erreicht. Das Modell muss die implizite Darstellung physikalischer Gesetze lernen, wie z. B. die Erdbeschleunigung, den Reibungskoeffizienten und den Elastizitätsmodul, und in der Lage sein, die zukünftige physikalische Entwicklung anhand des aktuellen Zustands vorherzusagen.

Die Physiksimulations-Engine ist für die Echtzeitberechnung physikalischer Wechselwirkungen verantwortlich. Dies ist kein einfaches voreingestelltes Regelwerk, sondern ein dynamisches Berechnungssystem auf der Grundlage von partiellen Differentialgleichungenlösern, das komplexe physikalische Phänomene wie Starrkörperdynamik, Strömungsmechanik und Weichkörperdeformation behandeln muss. Bei der technischen Umsetzung werden normalerweise die Finite-Elemente-Methode (FEM), Partikelsysteme (Particle System) oder tiefenlernende differenzierbare Physiksimulatoren eingesetzt. Der Schlüssel liegt im Gleichgewicht zwischen Rechenleistung und Genauigkeit – das System muss komplexe physikalische Berechnungen innerhalb von Millisekunden durchführen und gleichzeitig eine ausreichende Genauigkeit gewährleisten, um genaue Entscheidungen zu treffen.

Der Embodied Intelligence Controller ist die Brücke zwischen virtueller Schlussfolgerung und physischer Ausführung. Er empfängt die Vorhersageergebnisse des Weltmodells und die Berechnungsergebnisse der Physiksimulation und generiert konkrete Steuerbefehle. Technisch basiert dies normalerweise auf Algorithmen wie Model Predictive Control (MPC) oder Deep Reinforcement Learning (DRL). Der Controller muss hochdimensionale Zustands- und Aktionsräume verarbeiten und gleichzeitig die physikalischen Beschränkungen, die Verzögerung und das Rauschen der Aktoren berücksichtigen.

Von der Systemarchitektur her folgt die Physikalische AI einem schichtweisen Design. Die Wahrnehmungsschicht integriert ein Array aus multimodalen Sensoren, einschließlich RGB-D-Kameras, Lidar-Sensoren, IMU-Sensoren und Kraft-/Drehmomentsensoren. Die technische Herausforderung besteht darin, die Sensoren zu fusionieren und die Daten in Echtzeit zu verarbeiten. Das System muss die Daten verschiedener Sensoren in ein gemeinsames Koordinatensystem bringen, Zeitstempel synchronisieren, Kalibrierungsfehler und Rauschen behandeln. Technisch wird dies normalerweise durch Kalman-Filter, Partikel-Filter oder tiefenlernende Sensor-Fusionsnetzwerke erreicht.

Die Kognitionsebene betreibt das Weltmodell und die Physiksimulations-Engine. Diese Ebene ist sehr rechenintensiv und erfordert spezielle Hardware-Beschleunigung. NVIDIA nutzt dazu GPU-Clustern für parallele Berechnungen und hat spezielle CUDA-Kerne entwickelt, um die Physiksimulationsalgorithmen zu optimieren. Die Speicherverwaltung ist ebenfalls ein wichtiger technischer Punkt – das System muss die Darstellung eines umfangreichen 3D-Szenarios und den physikalischen Zustand in begrenzter GPU-Speichergröße verwalten.

Die Ausführungsebene ist für die Bewegungsplanung und -steuerung verantwortlich. Der technische Kern besteht in der Lösung der inversen Kinematik und der Trajektorienoptimierung. Bei einem Roboter mit mehreren Freiheitsgraden muss ein komplexes Optimierungsproblem unter Beschränkungen in Echtzeit gelöst werden. Moderne Methoden kombinieren normalerweise analytische Lösungen und numerische Optimierungen, verwenden die Pseudoinverse der Jacobi-Matrix, um überzählige Freiheitsgrade zu behandeln, und wenden die quadratische Programmierung (QP) oder die sequentielle quadratische Programmierung (SQP) an, um die Beschränkungen zu berücksichtigen.

Parallel zur Veröffentlichung der Physikalischen AI hat NVIDIA auch ein entsprechendes umfassendes technologisches Ökosystem vorgestellt, darunter die Omniverse-Simulationsplattform, den Isaac-Robotik-Entwicklungssatz und das Cosmos-Weltgrundmodell.

Der Grund dafür ist, dass das Training von Physikalischer AI eine große Menge an Daten über physikalische Wechselwirkungen erfordert, aber die Datenerhebung in der realen Welt sehr kostspielig ist. Die Lösung besteht in der datengenerierenden Simulation. NVIDIA erzeugt daher über die Omniverse- und Cosmos-Plattformen umfangreiche synthetische Trainingsdaten, einschließlich verschiedener physikalischer Szenarien, Materialeigenschaften und Interaktionsmuster. Allerdings zeigt das in der Simulationsumgebung trainierte Modell oft eine geringere Leistung in der realen Welt, was als „Realisierungsabstand“ bezeichnet wird. Was NVIDIA derzeit unternimmt, ist die Verwendung der Sim-to-Real Transfer-Technologie, um die Lücke zwischen virtuellen und realen Daten zu schließen.

Die Physikalische AI erfordert weitaus mehr Rechenressourcen als traditionelle KI-Anwendungen. Ein einzelnes Physikalisches AI-System kann Hunderte von GPU-Kernen für den Echtzeitbetrieb benötigen. NVIDIA hat speziell die RTX PRO-Server und die DGX Cloud-Plattform entwickelt, um diese Rechenanforderungen zu unterstützen. Das Systemarchitektur basiert auf verteilter Rechenleistung, bei der verschiedene Rechenaufgaben auf speziell optimierte Hardware verteilt werden. Diese Technologiearchitektur ermöglicht es der Physikalischen AI, Echtzeitwahrnehmung, -schlussfolgerung und -handlung in einer komplexen realen Umgebung zu realisieren und tatsächlich den Sprung von der virtuellen in die physische Welt zu schaffen.

Ein weiterer Unterschied zu traditionellen KI-Systemen, die hauptsächlich digitale Informationen wie Texte und Bilder verarbeiten, ist, dass Physikalische AI von großen Modellen angetrieben wird. So kann die Maschine nicht nur Daten verarbeiten, sondern auch die räumlichen Beziehungen und physikalischen Gesetze der dreidimensionalen Welt verstehen. Diese Technologie verleiht dem KI-System eine räumliche Wahrnehmungsfähigkeit wie bei Lebewesen und ermöglicht komplexe physikalische Operationen in der realen Umgebung.

Nehmen wir ein konkretes Beispiel, um diesen Unterschied zu veranschaulichen: Wenn die KI ein Video von einem Roboter, der ein Objekt greift, erzeugt, könnte eine traditionelle Generative KI Bilder von Objekten, die in der Luft schweben, Roboterarmen, die durch feste Hindernisse hindurchgehen oder die Schwerkraftgesetze verletzen, erstellen, da sie nur auf der Grundlage von Trainingsdaten auf Pixelebene nachahmt. Die Physikalische AI dagegen stellt sicher, dass der generierte Inhalt vollständig den Funktionsweisen der physischen Welt entspricht – Objekte fallen unter dem Einfluss der Schwerkraft, der Roboterarm muss Hindernisse umgehen und die Greifkraft muss dem Gewicht des Objekts entsprechen.

Die tiefere Bedeutung dieser technologischen Innovation besteht darin, dass die KI von einem reinen Informationsverarbeitungstool zu einem intelligenten System wird, das die physische Welt wirklich verstehen und bedienen kann. Traditionelle KI ist wie ein Gelehrter, der nur Bücher liest, aber nie praktische Erfahrungen sammelt. Er hat reichhaltiges theoretisches Wissen, aber keine praktische Erfahrung. Physikalische AI dagegen ist wie ein Ingenieur, der sowohl theoretisches Wissen als auch praktische Erfahrungen hat. Sie weiß nicht nur, was ist und warum, sondern auch, wie man es macht, und kann abstraktes Wissen in konkrete Handlungen umsetzen.

B

Huang Renxun ist äußerst optimistisch in Bezug auf die Zukunft der Physikalischen AI. Er hat auf der CES gesagt, dass Physical AI einen Branchenwandel im Umfang von über 50 Billionen US-Dollar auslösen wird, der 10 Millionen Fabriken, 200.000 Lagerhäuser, Milliarden von Humanoiden Robotern und 1,5 Milliarden Autos und Lastwagen betreffen wird. Diese Zahl klingt beeindruckend, aber dahinter steckt eine solide logische Grundlage.

Es gibt weltweit 1 Milliarde Wissensarbeiter. KI-Smart-Agenten könnten die nächste Roboterbranche sein, möglicherweise eine Geschäftsmöglichkeit im Wert von Billionen von US-Dollar, sagte Huang Renxun auf der CES 2025. Er ist der Ansicht, dass Physikalische AI bedeutet, dass die KI nicht länger auf die virtuelle Welt beschränkt ist, sondern in die reale Welt tritt und in der Robotik, der Logistik, der Automobilindustrie, der Fertigung und vielen anderen Branchen zur Hauptanwendung werden wird.

In Huang Renxuns Planung werden es in Zukunft zwei hochproduktive Roboterprodukte geben: Das erste ist das selbstfahrende Auto, das zweite wird wahrscheinlich der humanoide Roboter sein. Beide Maschinen müssen eine menschenähnliche Wahrnehmungsfähigkeit haben, in der Lage sein, sich an schnelle Veränderungen der Umgebung anzupassen und sofortige Entscheidungen treffen, wobei nur minimale Fehler zulässig sind. Er ist besonders erregt über das Potenzial der humanoiden Roboter, da sie am ehesten in einer für Menschen gestalteten Umgebung funktionieren können.

Huang Renxun prophezeit auch, dass die Ära der Roboter bereits begonnen hat und dass alle beweglichen Objekte in Zukunft autonom funktionieren werden. Hinter dieser Prophezeiung steckt eine tiefgehende Einschätzung der Reife und des Anwendungspotenzials der Physikalischen AI-Technologie. Aus technologischer Sicht nähert sich die Physikalische AI, dank der Verbesserung der Rechenleistung, der Verringerung der Sensorkosten und der Optimierung der Algorithmen, dem Punkt, an dem sie aus dem Labor in die kommerzielle Anwendung übergeht.

NVIDIAs Strategie in der Physikalischen AI-Branche lässt sich auf die jahrelange Investition in die Robotiktechnologie zurückführen. Das von der Firma vorgestellte Konzept der Physikalischen AI zielt darauf ab, physikalische Gesetze und Künstliche-Intelligenz-Technologie zu kombinieren und den von der KI generierten Inhalt durch die Integration echter physikalischer Regeln zu optimieren, damit er den Logik und Gesetzen der realen Welt entspricht.

Allerdings darf NVIDIA nicht zu weit gehen. Im Gegensatz zu traditionellen KI-Anwendungen interagiert das Physikalische AI-System direkt mit der physischen Welt, und Fehler können schwerwiegende Sicherheitsfolgen haben. Dies erfordert, dass das Physikalische AI-System höhere Zuverlässigkeits- und Sicherheitsstandards erfüllt.

NVIDIAs derzeitige Lösung ist das Halos-Sicherheitssystem. Dies ist ein ganzheitliches Sicherheitsystem, das die Hardwarearchitektur, das KI-Modell, die Softwaretools und die Sicherheitsstandards vereinheitlichen kann, um die stabile Funktion des Physikalischen AI-Systems in verschiedenen Umgebungen sicherzustellen. Von der Datenerhebung über das Modelltraining bis zur Implementierung und Anwendung muss jeder Schritt strengen Sicherheitsüberprüfungen unterzogen werden.

Betrachten wir nun Alibaba. Die Entscheidung, den NVIDIA Physikalischen AI-Software-Stack in die Entwickleroptionen aufzunehmen, beruht auf einer tiefgehenden strategischen Überlegung. Die aktuellen Anwendungen von großen KI-Modellen konzentrieren sich hauptsächlich auf Online-Szenarien, während Physikalische AI versucht, die gesamte reale Welt in die KI zu integrieren. Dieser Sprung von der virtuellen in die reale Welt ist der strategische Höhepunkt, den Alibaba Cloud in der Ära der KI einnehmen muss.

Wu Yongming, Vorsitzender und CEO der Alibaba Cloud Intelligence Group, hat auf der Yunqi-Konferenz ges