StartseiteArtikel

Nvidia hat ein Embodied AI-Inferenzmodell vorgestellt.

36氪的朋友们2025-08-13 09:06
NVIDIA hat das Open-Source-Robotik-Inferenzmodell Cosmos Reason veröffentlicht, das die Zerlegung und Ausführung komplexer Anweisungen unterstützt.

Bei der SIGGRAPH-Konferenz hat NVIDIA das Open-Source-Physik-AI- und Robotervisions-Inferenzmodell Cosmos Reason vorgestellt, das komplexe Anweisungen in Aufgaben zerlegen und mit gesundem Menschenverstand ausführen kann.

Bei der am Montag in der örtlichen Zeit eröffneten Spitzenbranchenkonferenz SIGGRAPH (Jahreskonferenz der Special Interest Group on Computer Graphics and Interactive Techniques der Association for Computing Machinery) hat der "weltweite Aktienkönig" NVIDIA eine Reihe von Weltmodellen, Anwendungslibraries und Infrastrukturen für Roboterentwickler vorgestellt.

Darunter ist vor allem das Open-Source-Physik-AI-Anwendungs- und Robotervisions-Inferenzmodell Cosmos Reason mit nur 7 Milliarden Parametern aufmerksamkeitswürdig.

NVIDIA hat erklärt, dass seit der Veröffentlichung des CLIP-Modells von OpenAI vor mehreren Jahren visuelle Sprachmodelle Computer-Vision-Aufgaben wie die Erkennung von Objekten und Mustern verändert haben. Allerdings konnten frühere Modelle keine mehrstufigen Aufgaben lösen und hatten Schwierigkeiten, unklare oder neue reale Erfahrungen zu bewältigen.

Dank seiner Gedächtnis- und Verständnisfähigkeit kann Cosmos Reason ermöglichen, dass Roboter und AI-Embodied Agents "wie Menschen schließen" und in der realen Welt handeln.

In einem von NVIDIA vorgestellten Beispiel hat ein Roboterarm, der das visuelle Inferenzmodell ausführt, erfolgreich anhand des Szenarios "Brot + Toaster" geschlossen, dass die sinnvollste nächste Aktion darin besteht, das Brot in den Toaster zu geben und zu toasten, und die Denklogik in Steueranweisungen für den Roboterarm umgesetzt.

(Quelle: NVIDIA)

Diese Funktion heißt "Robot Planung und Inferenz". Cosmos Reason kann als "Gehirn" des Roboters fungieren und ist für bewusste und strukturierte Entscheidungen verantwortlich. Das visuelle Inferenzmodell kann die Umgebung interpretieren und bei komplexen Anweisungen diese in Aufgaben zerlegen und mit gesundem Menschenverstand ausführen.

Darüber hinaus kann dieses Modell für eine Reihe von AI-Anwendungen verwendet werden. Beispielsweise kann es die Organisation und Annotation von großen, vielfältigen Trainingsdatensätzen automatisieren und auch wertvolle Informationen aus einer großen Menge an Videodaten extrahieren und eine Attributionsanalyse durchführen.

Derzeit ist dieses Modell bereits kommerziell in Betrieb. NVIDIA hat angegeben, dass das interne Roboter- und Autonomes-Fahren-Team der Firma das Modell zur Datenorganisation und -filterung, -annotation sowie zur Nachbearbeitung von VLA (Visuelle Sprache Aktion) verwendet. Uber nutzt ebenfalls das Modell zur Annotation und Erstellung von Beschreibungen für Trainingsdaten für autonomes Fahren.

Darüber hinaus Magna International nutzt das Modell zur Entwicklung der vollautomatischen Sofortlieferlösung City Delivery, um Fahrzeuge schneller an neue Stadtumgebungen anzupassen. VAST Data, Milestone Systems setzen das Modell auch in Bereichen wie der Automatisierung von Verkehrsüberwachung und visueller Inspektion ein.

Neben Cosmos Reason hat NVIDIA auch in das Cosmos-Weltmodell Cosmos Transfer-2 integriert, um die Generierung von synthetischen Daten aus Szenarien wie 3D-Simulationen zu beschleunigen, sowie eine distillierte, auf Geschwindigkeit optimierte Version von Cosmos Transfers.

NVIDIA hat am Montag auch das Omniverse-Softwareentwicklungswerkzeug aktualisiert und eine neue neuronale Rekonstruktionsbibliothek vorgestellt. Darin ist eine Rendering-Technologielibrary enthalten, die es Entwicklern ermöglicht, reale Welt in drei Dimensionen mithilfe von Sensordaten zu simulieren.

Diese Reihe von Veröffentlichungen zeigt, dass der AI-Chip-Riese verstärkt in den Roboterbereich vorstößt und versucht, diesen als nächste wichtige Anwendungsumgebung neben den AI-Datenzentren zu etablieren.

Dieser Artikel stammt aus dem WeChat-Account "Kechuangban Daily", Autor: Shi Zhengcheng, veröffentlicht von 36Kr mit Genehmigung.