Physik-AI antwortet auf die Frage: "Wie viele Schritte sind erforderlich, um einen Elefanten in den Kühlschrank zu stecken?"
„Wie viele Schritte sind erforderlich, um einen Elefanten in den Kühlschrank zu stecken?“ In der Vergangenheit waren die Standard-Schritte: Kühlschranktür öffnen, Elefanten hineinlegen, Kühlschranktür schließen. Wie viele Schritte wären dann für die technische Umsetzung erforderlich, wenn ein Roboter diesen Befehl ausführen würde? In der heutigen Zeit des rasanten Fortschritts der Physikalischen KI-Technologie möchten wir nicht diese Szene in der Realität nachbilden, sondern sie als konkretes Beispiel nutzen, um die technologischen Fähigkeiten der Physikalischen KI in der gesamten Kette von virtueller Simulation, logischer Schlussfolgerung bis hin zur realen Implementierung zu untersuchen und zu überprüfen, wie diese Technologie die Grenze zwischen der Informationswelt und der physischen Welt durchbrechen kann und neue Wege für die Lösung komplexer technischer Aufgaben bietet.
Wenn ein Roboter die physikalischen Eigenschaften eines Elefanten und die räumliche Struktur eines Kühlschranks verstehen und eine kohärente Handlungsfolge planen muss, bedarf es dahinter der technologischen Unterstützung in der gesamten Kette von der Erstellung einer virtuellen Umgebung, der Schlussfolgerungstraining mit großen Modellen bis hin zur realen Implementierung. NVIDIA hingegen hat dank der tiefen Integration in den Bereichen Computergrafik, physikalischer Simulation und KI mit Omniverse + Cosmos als Kern ein komplettes Brückenschlag zwischen der virtuellen Welt und der Realität für die Physikalische KI geschaffen, was die technische Umsetzung des „Elefanten in den Kühlschrank“ möglich macht.
Erster Schritt: Aufbau des „Elefant - Kühlschrank“ - Szenarios im virtuellen Raum
In der technischen Umsetzung, wenn ein Roboter komplexe Aufgaben ausführt, ist die virtuelle Umgebung der „Testplatz“ für die technische Validierung. Fehlen realitätsnahe Modelle von Elefanten und Kühlschränken, die den physikalischen Gesetzen entsprechen, wird die nachfolgende KI - Training und - Schlussfolgerung für das „Stecken des Elefanten in den Kühlschrank“ auf unsicheren Grundlagen stehen.
NVIDIAs Kernvorteil liegt darin, dass es mit Omniverse einen digitalen Zwillingsraum schafft, der die physikalischen Gesetze nachbildet, und Cosmos ihm die Fähigkeit zur generativen Modellierung verleiht, sodass die virtuellen Darstellungen von Elefanten und Kühlschränken sowohl realitätsnah als auch flexibel sind.
NVIDIA Omniverse ist kein gewöhnliches 3D - Modellierungstool, sondern eine Echtzeit - Kooperations - und Simulationsplattform auf der Grundlage des OpenUSD (Universal Scene Description) - Standards. Sein Kern besteht in der millimetergenauen Nachbildung der physischen Welt, um sicherzustellen, dass die virtuelle Umgebung in hohem Maße mit den realen Gesetzen übereinstimmt. Beim Aufbau eines physikalischen Szenarios berechnet der Physik - Engine von Omniverse jedes Detail präzise: Bei einem Elefanten werden seine physikalischen Eigenschaften wie Gewicht, Bewegungsinertie der Muskeln, Hautelastizität usw. simuliert, und sogar die Belastungsverteilung der vier Beine beim Gehen des Elefanten kann wiedergegeben werden, um sicherzustellen, dass die Kraftrückmeldung beim Interagieren des Roboters mit dem Elefanten den realen Gesetzen entspricht. Bei einem Kühlschrank werden die Gelenkmechanik beim Öffnen und Schließen der Tür, die Reibung der Dichtung, die Kapazitätsbeschränkung des Innenraums analysiert, und sogar extreme Szenarien wie Türstörungen (z. B. Blockieren, undichtigkeit der Dichtung aufgrund Alterung) simuliert, um eine umfassende Szenarienabdeckung für die nachfolgenden Tests zu gewährleisten.
Noch wichtiger ist, dass Omniverse die Zusammenarbeit mehrerer Tools und die Echtzeit - Rendering unterstützt. Designer können das Äußere eines Elefanten in Maya modellieren und die strukturellen Details eines Kühlschranks in Blender anpassen. Alle Änderungen werden sofort auf der Omniverse - Plattform synchronisiert, wodurch Probleme wie Inkompatibilität der Dateiformate und Verwirrung der Versionen in der herkömmlichen Modellierung vermieden werden und die Effizienz beim Aufbau der virtuellen Szene erheblich verbessert wird.
NVIDIA Cosmos ist eine generative Weltgrundmodellplattform für die Physikalische KI, die die Schwelle für die Erstellung virtueller Szenarien senkt und es Ingenieuren ermöglicht, schnell Trainingsumgebungen zu generieren, die den Anforderungen entsprechen. Alle generierten Szenarien gehen von technischer Machbarkeit aus und enthalten keine übertriebenen Entwürfe, die von der Realität abweichen.
Als NVIDIA - Plattform für generative Weltgrundmodelle in Bezug auf Physikalische KI hat Cosmos die Art und Weise der Erstellung virtueller Szenarien grundlegend verändert. Bei der herkömmlichen Szenarienaufbau mussten Ingenieure manuell modellieren und Parameter einstellen, was Wochen oder sogar Monate in Anspruch nahm. Mit Cosmos können sie einfach Text (z. B. „ein erwachsener afrikanischer Elefant und ein Zwei - Tür - Kühlschrank mit einer Höhe von 2,5 Metern in einem 20 - Quadratmeter - großen Innenraum“) oder Referenzbilder eingeben, und es wird automatisch ein virtuelles Szenario erzeugt, das den physikalischen Gesetzen entspricht.
Der Kern dieser generativen Fähigkeit liegt in zwei Punkten: Erstens basiert es auf dem Alltagswissen, das auf einer großen Menge physikalischer Daten trainiert wurde. Beispielsweise erkennt es automatisch die grundlegende Reihenfolge, dass „der Elefant größer als die Kühlschranktür ist und die Tür zuerst geöffnet werden muss, bevor er hineingeführt werden kann“, um sicherzustellen, dass die Szenariologik der realen Wahrnehmung entspricht. Zweitens besteht eine tiefe Zusammenarbeit mit dem Physik - Engine von Omniverse. Das generierte Elefantenmodell passt automatisch die Kraftrückmeldungsparameter von Omniverse an, und die Öffnungs - und Schließlogik der Kühlschranktür wird direkt in das Simulationssystem integriert, ohne zusätzliche Einstellungen erforderlich zu sein. Das bedeutet, dass Ingenieure für verschiedene Szenarien nicht jedes Mal das Szenario neu aufbauen müssen, sondern einfach über Textbefehle schnell neue Trainingsumgebungen generieren können, was die Schwelle für die Entwicklung der Physikalischen KI erheblich senkt.
Zweiter Schritt: Lehren der KI, Elefanten und Kühlschränke zu verstehen
Nachdem die virtuelle Szene vorhanden ist, ist der nächste Schritt, den Roboter in die Lage zu versetzen, das Ziel zu verstehen und die Schritte zu planen. Dafür muss das große Modell die Fähigkeit zur physikalischen Verständnis und logischen Schlussfolgerung besitzen. NVIDIA hat Cosmos Reason entwickelt, um genau dieses Problem zu lösen. Es ermöglicht es dem Roboter, wie ein Mensch über den Aufgabenablauf nachzudenken, anstatt mechanisch voreingestellte Befehle auszuführen.
Die virtuelle Aufgabe, „einen Elefanten in den Kühlschrank zu stecken“, ist im Wesentlichen die Simulation einer Szene von „Interaktion zwischen einem großen Objekt und einem geschlossenen Raum“. Dahinter stecken vielfältige Entscheidungsbedürfnisse: Die KI muss die Positionsbeziehung zwischen Objekt und Raum erkennen, den Betriebszustand der Geräte beurteilen, ihren eigenen Bewegungsweg planen, die Betriebskraft kontrollieren, um Störungen zu vermeiden, und beim Führen des Objekts Hindernisse ausweichen. Diese Anforderungen stimmen in hohem Maße mit der Logik von technischen Szenarien wie „Transport von Industrieanlagen“ und „Installation großer Haushaltsgeräte“ in der Realität überein und bieten somit eine Simulationsbasis für die technische Anwendung der KI.
Cosmos Reason ist ein offenes, anpassbares visuell - sprachliches Schlussfolgerungsmodell (VLM) mit 7 Milliarden Parametern, das für kommerzielle Anwendungen geeignet und speziell für die Physikalische KI entwickelt wurde. Durch die Integration von physikalischem Verständnis, Vorwissen und Alltagswissens - Schlussfolgerungsfähigkeit befähigt dieses Modell Roboter, Fahrerassistenzsysteme und visuelle KI - Agenten, intelligent in der realen Welt zu agieren.
Mithilfe von Cosmos Reason kann ein Roboter die Umgebung interpretieren. Wenn er einen komplexen Befehl erhält, kann er ihn in Teilaufgaben zerlegen und diese Aufgaben auch in einer unbekannten Umgebung mit Alltagswissen ausführen.
Cosmos Reason kann anhand visueller Eingaben in Echtzeit die Größe des „Elefanten“ und die Kapazität des „Kühlschranks“ analysieren und beurteilen, ob „der Elefant in den Kühlschrank hineinpasst“. Es zerlegt auch komplexe Aufgaben in ausführbare Handlungsskripte: „Zum Kühlschrank gehen → Zustand der Tür prüfen → Türöffnungsmotor starten → Stoppen, wenn die Tür 90 Grad geöffnet ist → Zum Elefanten gehen → Leitsignal geben → Position anpassen, während der Elefant sich bewegt → Bestätigen, dass der Elefant vollständig hineingekommen ist → Kühlschranktür schließen“. Wenn in der virtuellen Szene die Situation auftritt, dass „die Kühlschranktür blockiert ist“, wird Cosmos Reason nicht einfach weiter Druck ausüben (um eine Beschädigung des Motors zu vermeiden), sondern zuerst den Blockierpunkt prüfen (z. B. Fremdkörper in der Dichtung) und dann den Öffnungswinkel anpassen (leicht die Tür anheben). Dies basiert auf dem Vorwissen über die „Behandlung von Maschinenstörungen“ und nicht auf einem einfachen Handlungsbefehl.
In einem Roboter werden normalerweise zwei KI - Modelle benötigt: Ein VLM, das für das Verständnis von Befehlen und die Planung von Handlungen zuständig ist, und ein visuell - sprachliches Handlungsmodell (VLA), das für schnelle Reaktionen und die Ausführung von Handlungen verantwortlich ist. Mit Cosmos Reason als VLM kann der Roboter unklare Befehle besser verstehen und konkrete Handlungspläne ableiten.
Der dritte Schritt: Vom virtuellen Training des Roboters zur realen Implementierung
Wie kann die KI - Fähigkeit, die in der virtuellen Welt trainiert wurde, in der Realität eingesetzt werden? NVIDIA hat hierzu das Konzept der „drei Computer“ vorgeschlagen, das die vollständige technische Unterstützung für die Physikalische KI von der Ausbildung bis zur Implementierung bietet und den gesamten Lebenszyklus der Roboterschaft abdeckt: Ein DGX für das Training der KI, ein AGX für die Implementierung der KI und schließlich Omniverse + Cosmos.
DGX: Training der Physikalischen KI
Damit ein Roboter lernt, „einen Elefanten in den Kühlschrank zu stecken“, bedarf es einer riesigen Menge an Daten aus virtuellen Szenarien (z. B. Elefanten unterschiedlicher Körpergröße, Kühlschränke unterschiedlicher Struktur und verschiedene Umgebungsstörungen), um das Modell zu trainieren. Die enorme Rechenleistung, die für diese Art von Training erforderlich ist, kann nur von einer speziellen Supercomputer - Infrastruktur bereitgestellt werden. Daher ist der Computer für das Training von entscheidender Bedeutung. Das NVIDIA DGX - System kann dank seiner überragenden Rechenleistung diese Daten effizient verarbeiten: Einerseits kann es das Cosmos Reason - Modell schnell verbessern und die Logik der Aufgabenzerlegung optimieren. Andererseits kann es durch das verstärkte Lernen den Roboter in „Fehlerszenarien“ (z. B. der Elefant ist nicht hineingekommen, aber die Tür wird geschlossen; die Tür wird mit zu viel Kraft geöffnet und beschädigt) seine Strategie anpassen und seine Robustheit verbessern.
AGX: Implementierung der Physikalischen KI
Das trainierte Modell muss in einen realen Roboter „eingebaut“ werden. Die NVIDIA Jetson AGX - Serie (z. B. NVIDIA Jetson Thor) ist eine Edge - Computing - Plattform, die für diesen Zweck entwickelt wurde und das aufgewertete Cosmos Reason - Modell ausführen kann. In der realen Welt kann AGX in Echtzeit die Daten von den Robotersensoren (Kamera, Lidar) empfangen und schnell Handlungsbefehle ausgeben. Beispielsweise kann es innerhalb von 0,1 Sekunden nach der Erkennung der Position eines realen Elefanten einen Bewegungsweg planen, um sicherzustellen, dass der Roboter keine Verzögerung bei seinen Bewegungen hat.
Omniverse + Cosmos: Simulations - und synthetische Datenerzeugungsplattform
Dies ist der Kernbindeglied der „drei Computer“ und auch die „Pufferzone“ zwischen der virtuellen und der realen Welt. Forscher von großen Sprachmodellen haben das Glück, eine riesige Menge an Internetdaten für das Vortraining nutzen zu können, aber in der Physikalischen KI - Branche gibt es keine solche Ressource.
In der Realität ist die Erfassung von Trainingsdaten für das „Stecken des Elefanten in den Kühlschrank“ extrem kostspielig (es kann den Roboter beschädigen oder den Elefanten verletzen), und es ist schwierig, alle extremen Szenarien (z. B. plötzlicher Stromausfall, nasser Boden) abzudecken. Gleichzeitig ist die Datenerfassung zeit - und arbeitsaufwändig, was die Kosten enorm macht und eine Skalierung schwierig macht. In Omniverse können Ingenieure tausende oder sogar noch mehr extreme Szenarien simulieren und eine große Menge an Daten für das Training der Physikalischen KI sammeln.
Rev Lebaredian, Vizepräsident für NVIDIA Omniverse und Simulations - Technologie, betont, dass die Physikalische KI die Brücke zwischen der Informationswelt und der physischen Welt ist und den Einfluss der Berechnung von der 5 - Billionen - Dollar - Informationsindustrie auf den 100 - Billionen - Dollar - Markt der physischen Welt ausdehnt. „Wenn Sie ein Robotersystem bauen möchten, das sicher in der realen Welt agieren kann, ist die einzige Möglichkeit die Simulation. Wir müssen alle möglichen extremen Szenarien mit Simulationen wiederholt testen, bevor wir es einsetzen - Tests in der realen Welt sind zu langsam, zu teuer und zu gefährlich.“
Mehr als nur „Elefant in den Kühlschrank“ - Die Physikalische KI transformiert alle Branchen
Wenn ein Roboter in der Realität erfolgreich einen „Elefanten in den Kühlschrank steckt“, bedeutet dies auch, dass die Physikalische KI einen wichtigen Schritt von der technischen Schließung der Schleife zur praktischen Anwendung geschafft hat. Aber dies ist nur der Anfang. NVIDIAs Physikalische KI dringt mit Omniverse + Cosmos als Kern in alle Branchen wie Industrie, Logistik und Medizin vor und bringt den Einfluss der Berechnung von der 5 - Billionen - Dollar - Informationsindustrie in den 100 - Billionen - Dollar - Markt der physischen Welt.
Das virtuelle Beispiel des „Elefanten in den Kühlschrank“ ist im Wesentlichen ein Abbild von NVIDIAs Physikalischer KI - Technologie. Es beweist, dass durch die geschlossene Schleife von der Generierung virtueller Szenarien (Omniverse + Cosmos) → Modellschlussfolgerungstraining (Cosmos Reason + DGX) → Optimierung der realen Implementierung (AGX) die KI die physische Welt wirklich verstehen und verändern kann. Heute arbeitet NVIDIA zusammen mit Partnern wie Accenture, Avathon, Belden, DeepHow, Milestone Systems und Telit Cinterion, um die globale Betriebsweise durch die Wahrnehmung und Schlussfolgerung auf der Grundlage der Physikalischen KI zu stärken und diese Technologie in die globale Branchenökosystem zu integrieren.
Das virtuelle Beispiel des „Elefanten in den Kühlschrank“ soll nicht eine absurde reale Szene verwirklichen, sondern markiert den Beginn der technologischen Erforschung der Menschen, die Grenze zwischen der Informationswelt und der physischen Welt mit der Physikalischen KI zu durchbrechen. Und NVIDIA steht an der Spitze dieser Revolution.