Nvidia: Roboter mit Hummerhirnstruktur ausgestattet - Der Harness der Embodied AI ist da!

Es ist nicht notwendig, Daten zu lernen. Man kann Roboter durch das Schreiben von Code bedienen.

Der Wind von Harness hat schließlich auch den Bereich der Roboter erreicht!

Gerade hat NVIDIA ein neues Framework zur Roboterkontrolle open - source gemacht:

CaP - X.

Basierend auf diesem Framework kann der Roboter die Umgebung anhand der Kamera verstehen und dann einen Python - Code vor Ort schreiben, um sich selbst zu steuern.

Das Wichtigste ist, dass dies kein Einzelfall ist. Wenn ein Code eine Aufgabe erfolgreich erledigt, wird er automatisch in die Skill - Bibliothek gespeichert und kann für verschiedene Roboter - Systeme mit unterschiedlicher Form und Struktur verwendet werden.

(Klingt das nicht wie die Skills von OpenClaw?)

Das Verblüffendste ist, dass dieses Framework auch große Embodied - Modelle (z. B. VLA) als API nutzen kann und so quasi ein "Gehirn" verschiedene "Kleinhirne" (Wahrnehmung und Steuerung) steuert.

In praktischen Tests hat der CaP - Agent0, der auf diesem Framework basiert, in 4 von 7 Kernaufgaben eine Erfolgsrate erreicht, die die von von Hand geschriebenen Programmen menschlicher Experten erreicht oder sogar übertrifft.

Selbst gegenüber vordefinierten, end - to - end großen Modellen wie OpenVLA und Pi - Serie zeigt die "Logik - basierte" Lösung von CaP - X eine vergleichbare oder sogar überlegene Leistung.

Jim Fan, der Leiter des Robotik - Bereichs bei NVIDIA, kommt zu folgendem Schluss:

Die Ära der Agentic Robotics ist da!

Wenn man sagt, dass Harness für große Modelle wie das Einbauen eines Motors in ein Auto ist;

dann ist CaP - X für Roboter wie das Lernen des Motors, je nach Straßenverhältnissen selbst Treiberprogramme zu schreiben und sich jederzeit "Code - Extras" hinzuzufügen.

Die Veröffentlichung dieses Frameworks markiert den Beginn der "Harness - Ära" im Bereich der Robotik.

Ken Goldberg, Professor an der UCB, kommentiert dazu:

Ich bin sehr begeistert von der Zukunft des "Code as Policy" (CaP) für Roboter!

Von "menschlicher Unterstützung" zu "Code as Policy"

Um zu verstehen, was CaP - X macht, schauen wir uns zunächst die gängigen Methoden der gegenwärtigen Roboterkontrolle an.

Bei der traditionellen Roboterkontrolle müssen Ingenieure Zeile für Zeile die Logik für Wahrnehmung, Planung und Rückkopplung schreiben (z. B. das klassische TAMP - Framework), was auch als "Human - in - the - loop" (menschliche Intervention) bezeichnet wird.

Diese Methode ist zwar präzise und transparent, aber ihre Generalisierungsfähigkeit ist sehr schlecht - oft muss der Code komplett neu geschrieben werden, wenn man z. B. ein anderes Glas benutzt.

Später, inspiriert von der Skalierungsregel großer Modelle, begann der Robotik - Bereich, end - to - end Visuallinguistische - Aktions - Modelle (VLA) auf der Grundlage des datengesteuerten Paradigmas einzusetzen.

In den letzten Jahren hat die VLA - Architektur (Visuallinguistische - Aktions - Architektur) beeindruckende Ergebnisse erzielt. Roboter können nun Kleidung falten und Hausarbeiten erledigen.

Das Problem ist jedoch, dass VLA ein "Black Box" - Modell ist. Wenn es fehlerhaft funktioniert, ist es schwer zu debuggen, und für neue Aufgaben müssen neue Daten gesammelt und das Modell neu trainiert werden.

Neuerdings, inspiriert von Fortschritten bei Programmier - Agenten wie OpenClaw und Claude code, haben Forscher begonnen zu überlegen, ob man große Modelle wie Gemini und GPT anstelle von Ingenieuren in der traditionellen Kontrolle einsetzen und Python - Code direkt für die Schnittstelle des Roboters schreiben kann.

Das ist der Hintergrund für die Entstehung von CaP - X. Es macht aus dem großen Modell nicht mehr nur einen "Befehlsgeber", sondern einen "Code - Schreiber".

Darüber hinaus ist im CaP - X - Framework das VLA - Strategiemodell nur eine API, die jederzeit aufgerufen werden kann.

Einfach ausgedrückt, war das VLA früher das "Gehirn" des Roboters, das alles von der Bildwahrnehmung bis zum Bewegen der Finger übernahm. In CaP - X wird das VLA jedoch zu einer Funktion im Code.

Beispielsweise, wenn der Roboter eine feine Aufgabe wie "den Deckel aufdrehen" ausführen muss, schreibt der Programmier - Agent nicht mehr selbst komplizierte geometrische Koordinaten, sondern ruft einfach das VLA auf, um die feine und komplizierte Operation auszuführen.

So ersetzt CaP - X die menschlichen Ingenieure durch einen universellen Programmier - Agenten, stellt alle erforderlichen Wahrnehmungs - und Antriebsschnittstellen bereit und kann sogar während der Arbeit automatisch eine Skill - Bibliothek erstellen und spezialisierte Embodied - Modelle aufrufen.

Im Folgenden betrachten wir dies genauer.

Das Harness für Embodied Intelligence

CaP - X ist im Wesentlichen kein Modell, sondern ein ganzes Steuerungsframework, das umfasst: die interaktive Trainingsumgebung CaP - Gym, die hierarchische Benchmark - Tests CaP - Bench, das untrainierte Agenten - Framework CaP - Agent0 und den evolutionären Algorithmus für Reinforcement Learning CaP - RL.

CaP - Gym

Als Kern des gesamten Frameworks ist CaP - Gym ein hierarchisches Steuerungsframework, das auf der standardisierten Gymnasium - Schnittstelle basiert.

Es verbindet das digitale Gehirn mit dem physischen Körper. Jedes Mal, wenn das große Modell eine Codezeile schreibt, erhält die physische Welt (Simulator oder echter Roboter) sofort eine Rückmeldung.

Beim Framework vereinigt CaP - Gym die Wahrnehmungs - und Steuerungselemente:

Beim Wahrnehmungsaspekt erhält der Agent Daten aus der Umgebung über modulare Wahrnehmungselemente. Diese Elemente abstrahieren die Rohdaten der Sensoren zu strukturierten semantischen Objekten.

Es enthält integrierte Werkzeuge wie SAM3 (Semantische Segmentierung) und Molmo 2 (Punktauswahl), die die Rohbilder direkt in strukturierte semantische Objekte wie "hier ist ein Apfel", "da ist ein Glas" umwandeln.

Beim Steuerungsaspekt gibt der Agent keine direkten Bewegungsbefehle für den Gelenkraum aus, sondern ruft einen Bewegungsplaner oder einen Inverskinematik - Lösungsalgorithmus (z. B. PyRoki) auf, um Kollisionserkennung und Pfadplanung automatisch zu behandeln.

Das bedeutet, dass CaP - Gym für alle Arten von Robotern, ob Einhand - Greifer, Zweiarm - Kooperationsroboter oder mobiler Roboter, eine interaktive Sandbox bietet, in der das große Modell direkt im kartesischen Raum "logisch programmieren" kann.

CaP - Bench

Basierend auf CaP - Gym wurde CaP - Bench entwickelt, um zu messen, ob ein Modell in der Lage ist, einen Roboter zu "steuern".

Es wird speziell verwendet, um zu testen, wie gut die Codequalität, die logische Strenge und die Fähigkeit zur Fehlerkorrektur eines Modells sind, wenn es an die Frontlinie geschickt wird, um "Aktionscode" zu schreiben.

CaP - Bench misst hauptsächlich in drei Dimensionen:

Abstraktionsniveau (Abstraction Level): Die Bewegungsebene wird von künstlich entworfenen Makrobefehlen (höhere Ebene) zu atomaren Grundelementen (niedrigere Ebene) umgewandelt;

Zeitliche Interaktion (Temporal Interaction): Es wird der Vergleich zwischen null - Shot - Einmal - Programmgenerierung und mehrfacher Interaktion durchgeführt, um die Fähigkeit zur Fehlersanierung und iterativen Inferenz zu quantifizieren;

Wahrnehmungs - Umsetzung (Perceptual Grounding): Es wird bewertet, wie verschiedene Formen der visuellen Rückmeldung die Fähigkeit des Agenten beeinflussen, aufgabenrelevante visuelle Merkmale in Codegenerierung umzuwandeln.

Nach einer blindgetesteten Einmal - Ausführung von 12 der neuesten großen Modelle (einschließlich OpenAI o1, Gemini 3 Pro usw.) zeigt sich:

Mit dem Wegfall menschlicher Vorkenntnisse (Support) fällt die Leistung aller führenden Modelle dramatisch ab, und keines von ihnen erreicht die null - Shot - Erfolgsrate menschlicher Experten auf der untersten Ebene.

Dies beweist, dass selbst Modelle wie GPT und Gemini 3 Pro ohne geeignete Schnittstellen in der Lage sind, bei der untersten Bewegungsebene "blind" zu sein und weit hinter den menschlichen Experten zurückbleiben.

CaP - Agent0

Basierend auf den Fehlermustern und Erfahrungen von CaP - Bench wurde CaP - Agent0 entwickelt.

CaP - Agent0 verbessert das Basis - Modell durch einen speziellen mehrfachen Inferenzzyklus und eine dynamisch zusammengesetzte Skill - Bibliothek. Die Kernkomponenten sind wie folgt:

Mehrfache visuelle Differenzanalyse (VDM): Wenn das Modell die Rohbilder direkt betrachtet, kann es "blind" sein. VDM kann die visuellen Unterschiede zwischen aufeinanderfolgenden Bildern in strukturierte natürliche Sprachrückmeldung umwandeln. Der Agent kann dann basierend auf dieser Sprachrückmeldung den Code weiter verbessern.

Automatisch zusammengesetzte dauerhafte Skill - Bibliothek: Wenn das Modell bei der untersten Ebene zufällig Erfolg hat, extrahiert CaP - Agent0 automatisch den erfolgreichen Code und verpackt ihn zu einem wiederverwendbaren "Skill". Mit zunehmenden Versuchen baut es sich eine große Skill - Bibliothek auf und macht komplexe Probleme immer einfacher.

Parallele integrierte Inferenz: Bei schwierigen Aufgaben werden mehrere Lösungen gleichzeitig generiert und parallel getestet. In jeder Runde werden mehrere Kandidatenlösungen gleichzeitig ausgewählt.

Darüber hinaus hat das Team CaP - RL entwickelt, das direkt die Erfolgsinformationen aus der Umgebung als bestätigbare Belohnung nutzt und das Programmier - Modell mit Reinforcement Learning (GRPO) nachträglich trainiert, um seine Fähigkeit, Code zu schreiben, immer genauer zu machen!

Experimentelle Ergebnisse

Wie am Anfang erwähnt, hat CaP - Agent0 in 4 von 7 Kernaufgaben von CaP - Bench eine Erfolgsrate erreicht, die die von von Hand geschriebenen Programmen menschlicher Experten erreicht oder sogar übertrifft, selbst wenn alle höheren Schnittstellen entfernt und nur die untersten atomaren Elemente zur Verfügung gestellt werden.

In den insgesamt 7 Aufgaben hat CaP - Agent0 nicht nur in 4 Aufgaben die Erfolgsrate erreicht, sondern sogar die von menschlichen Experten geschriebenen Referenzprogramme übertroffen.

In den Langzeitaufgaben von LIBERO - PRO hat der untrainierte CaP - Agent0 eine stärkere Robustheit als end - to - end - Modelle wie OpenVLA gezeigt, wenn es um zufällige Störungen in den Anweisungen oder Positionen geht.

Da CaP - RL auf der Code - Logikebene statt auf der Pixel - Ebene arbeitet, kann diese Fähigkeit auch null - shot (Zero - shot) verlustfrei auf reale Roboter übertragen werden.

Am Ende der Studie teilt das Team auch ehrlich die aktuellen Grenzen mit: