StartseiteArtikel

NVIDIA hat damit begonnen, sich der Robotik zu widmen und eigene Roboter zu entwickeln...

量子位2026-06-22 08:39
Um deine Token zum Brennen zu bringen, hat NVIDIA den Wettbewerb bereits auf Roboter ausgeweitet.

Na ja, der Typ NVIDIA hat wieder eine neue Möglichkeit gefunden, Token zu verbrennen (doge).

Gerade eben haben NVIDIA, die Carnegie Mellon University (CMU) und die University of California, Berkeley ein neues Framework für Embodied Intelligence namens Autoresearch vorgestellt –

ENPIRE.

Einfach ausgedrückt, ermöglicht ENPIRE es AI-Agenten, selbst Roboterforschung zu betreiben. Acht Coding-Agenten steuern jeweils einen zweiarmigen Roboter.

Die Agenten lesen selbst Forschungsartikel, verbessern Algorithmen, trainieren Strategien, führen Experimente durch, analysieren Ergebnisse, ziehen Schlüsse und versuchen es bei Unzufriedenheit mit einem neuen Ansatz erneut.

Die Forscher von GEAR müssen nicht ständig auf dem Bildschirm Parameter einstellen. Sie müssen nur am nächsten Morgen den Bericht lesen.

So sieht es konkret aus: Das Labor bereitet die Szene vor, und der Rest wird von Codex und den Robotern selbst erledigt.

Das Ergebnis ist tatsächlich gar nicht schlecht.

Beim repräsentativsten Pin Insertion -Task hat der Roboter in nur drei Stunden die Erfolgsrate beim Einführen einer Nadel in ein 4 -Millimeter -Loch von 0 auf 99 % gesteigert.

Ohne menschliche Beteiligung während des gesamten Prozesses hat einer der Projektleiter, Jim Fan, in einem Tweet geschrieben:

Ein Teil des GEAR -Laboratoriums verbessert sich jetzt rund um die Uhr selbst. Wir müssen nur am Morgen den Bericht lesen.

Einige Internetnutzer haben jedoch auch kommentiert:

Politisch korrekt ausgedrückt: Rund um die Uhr Selbstverbesserung; ehrlich gesagt: Tag und Nacht Token verbrennen.

Das Harness für Embodied -Intelligence -Forschung

Zunächst einmal: ENPIRE lässt die Agenten nicht direkt Steuerungscode schreiben, um die Roboter zu bedienen. Es verhält sich eher wie ein Roboterforscher, der in der realen Welt Experimente wiederholen, Literatur durchsuchen, Ideen umsetzen, Ergebnisse validieren, Probleme analysieren und die nächste Iteration optimieren muss.

Im Gegensatz zu ähnlichen code -as -policy -Ansätzen ist das Endprodukt von ENPIRE keine Steuerungsskript, sondern eine echte Policy, die auf einem Roboter implementiert werden kann.

Das Erstellen eines automatisierten Frameworks für die reale Welt ist schwierig, weil die reale Welt nicht wie die Codewelt ist.

In der Codewelt kann man einfach falschen Code löschen und neu beginnen. Wenn ein Experiment fehlschlägt, kann man es einfach neu starten.

Bei der Roboterforschung ist es anders. Nach einem fehlgeschlagenen Experiment können die Gegenstände verrutschen, die Szene durcheinander geraten und der Roboter kann sogar Gegenstände umwerfen.

Wenn die Forscher nach jedem Experiment manuell die Szene zurücksetzen, die Ergebnisse aufzeichnen und die Daten organisieren müssen, ist es für die Agenten unmöglich, 24 Stunden am Tag kontinuierlich Forschung zu betreiben.

Deshalb baut ENPIRE im Wesentlichen ein automatisiertes Experimentiergerät für AI -Forscher auf.

In der Forschungsarbeit wird es als Harness Framework bezeichnet.

Man kann sich vorstellen, dass es den Coding -Agenten eine vollständige Infrastruktur für physikalische Experimente zur Verfügung stellt.

Diese Infrastruktur besteht aus vier Teilen, die auch genau dem Namen ENPIRE entsprechen:

  • EN (Environment) -Umweltmodul: Verantwortlich für die Einrichtung der Experimentumgebung, einschließlich Sicherheitsgrenzen, automatischer Rücksetzung und automatischer Bewertung.
  • PI (Policy Improvement) -Strategieverbesserung: Die Agenten entwickeln neue Lösungen basierend auf den Aufgabenzielen. Verhaltensklonierung, Reinforcement Learning, heuristische Regeln oder sogar eine Kombination dieser Methoden können alle getestet werden.
  • R (Rollout) -Deployment -Test: Die neue Strategie wird auf einem realen Roboter implementiert, und die Trajektorien, Videos und Sensorsignale werden aufgezeichnet.
  • E (Evolution) -Evolution: Das Kernstück der Zusammenarbeit mehrerer Agenten. Acht Agenten nutzen jeweils einen Roboter und teilen den Code über Git. Sie lernen von den erfolgreichen Lösungen der anderen und eliminieren die fehlgeschlagenen Ansätze.

Wenn die vier Module miteinander verbunden sind, entsteht ein vollständiger Kreis:

Idee entwickeln → Strategie trainieren → Echtzeit -Test → Automatische Bewertung → Erfahrungen sammeln → Neue Idee entwickeln.

Der gesamte Prozess erfordert keine menschliche Überwachung. Die Agenten sind selbst für die Durchführung der Experimente und das Lernen aus diesen Experimenten verantwortlich.

Der wichtigste Teil ist tatsächlich das Environment -Modul. Denn es löst das am meisten nervige Problem in der Embodied -Intelligence -Forschung:

Wie kann man die Experimente automatisch laufen lassen?

In einer Simulationsumgebung kann man die Rücksetzung oft mit einem Befehl wie env.reset() durchführen.

Aber in der realen Welt gibt es kein env.reset().

Nach einem fehlgeschlagenen Experiment muss der Roboter die Szene zunächst in den Ausgangszustand zurückversetzen, bevor das nächste Experiment beginnen kann.

Beim GPU -Einstecken -Task muss der Roboter zunächst den GPU aus der Mainboard -Schnittstelle ziehen, ihn an einen bestimmten Ort bringen, loslassen und dann in den Ausgangszustand zurückkehren.

Der gesamte Prozess erfordert komplexe Kraftsteuerungen, da es leicht passieren kann, dass die GPU -Steckstifte beschädigt werden.

Das Gleiche gilt für die automatische Bewertung.

Beim Zip -tie -Task muss der Agent entscheiden: „Ist das Ende des Bindfadens tatsächlich durch das Bindfadenende hindurchgegangen?“

Um diese Frage zu beantworten, hat der Agent sogar ein eigenes visuelles Detektionssystem entwickelt.

Zwei Kameras, eine von oben und eine von der Seite, beobachten gleichzeitig das Zielgebiet und führen jeweils eine Bildsegmentierung durch. Erst wenn beide Kameras bestätigen, dass das Ende des Bindfadens durch das Bindfadenende hindurchgegangen ist, wird das Experiment als erfolgreich bewertet.

Die gesamte Detektionsverzögerung wird auf weniger als 150 Millisekunden reduziert, was fast der Reaktionsgeschwindigkeit des menschlichen Auges entspricht.

Sobald die Schnittstellen für die automatische Rücksetzung, die automatische Bewertung und die Sicherheitskontrolle funktionieren, werden sie als Standard -API festgelegt.

Bei zukünftigen Forschungen müssen die Agenten sich nicht mehr um die unteren Ebenen des Experimentierprozesses kümmern.

So wird die reale Welt erstmals zu einer Forschungsumgebung, die wiederholt genutzt und kontinuierlich verbessert werden kann.

Gute Agenten sind nicht schlechter als Forscher

Naturgemäß reicht es nicht aus, nur über ein Experimentiergerät zu verfügen. Die wirklich interessante Frage ist:

Wenn man Roboter, GPU und Token bereit hat, können die Agenten dann tatsächlich Forschung betreiben?

ENPIRE gibt die Antwort: Ja, und sie tun es ziemlich gut.

Wie am Anfang erwähnt, wurde die Forschungsarbeit an vier anspruchsvollen Handhabungsaufgaben validiert:

Push -T (T -förmiges Bauteil an ein Ziel bringen), Pin Insertion (Nadel in ein 4 -Millimeter -Loch einführen), GPU Insertion (GPU in die Mainboard -Schnittstelle einstecken) und Zip -tie (Bindfaden durchfädeln und abschneiden).

Am Ende erreichte alle vier Aufgaben eine Erfolgsrate von 99 %.

Interessanter als das Ergebnis ist jedoch der Prozess, wie die Agenten dieses Ergebnis erreicht haben. Am besten ist dies beim Pin Insertion -Task zu sehen.

Die Forschungsarbeit gibt direkt den Ideenbaum des Agenten preis, also den gesamten Evolutionsprozess seiner Forschungsansätze.

Daraus kann man einen sehr vertrauten Forschungsweg erkennen:

  • Zunächst wird Verhaltensklonierung (Behavior Cloning) getestet, das Ergebnis ist mäßig.
  • Durch die Hinzufügung von Online -Reinforcement -Learning -Daten steigt die Leistung an.
  • Nach der Hinzufügung eines Regularisierungsterms steigt die Erfolgsrate deutlich.
  • Anschließend wird die Batch -Größe weiter angepasst, um die Controller -Verzögerung auszugleichen und die Stabilität zu verbessern.

Während des gesamten Prozesses verhält sich der Agent wie ein menschlicher Forscher und testet Schritt für Schritt verschiedene Ansätze, bis die Erfolgsrate von fast 0 auf fast 100 % steigt.

Während des gesamten Prozesses hat kein Mensch dem Agenten gesagt, welche Module hinzugefügt werden sollen, und es gab keine menschliche Vorgabe für die Reihenfolge der Experimente.

Alle Lösungen basieren auf Hypothesen des Agenten selbst, die dann durch reale Experimente validiert werden.

Wenn man die Aufzeichnungen versteckt und nur den Forschungsprozess betrachtet, ist es schwer zu sagen, inwiefern dies sich von der Forschung eines Robotik -Doktoranden im Labor unterscheidet.

Noch interessanter ist, dass der Agent sogar die Forschungsrichtung aktiv ändert, basierend auf den Merkmalen der Aufgabe.

Beim Zip -tie -Task hat er schnell festgestellt, dass das End -to -End -Training nicht gut funktioniert.

Der Grund ist einfach: Die Aufgabe ist zu lang:

Schere finden → Schere greifen → Bindfaden finden → Position ausrichten → Abschneiden durchführen.

Die gesamte Handlungskette erstreckt sich über mehrere Phasen, und es ist schwierig, eine End -to -End -Strategie zu lernen. Deshalb hat der Agent einen anderen Ansatz gewählt.

Er nutzt zunächst das VLA -Modell (Vision -Language -Action) für die grobe Positionierung und ruft dann die Tool -API für die feine Handhabung auf.

In gewisser Weise hat er sogar eine Systemarchitektur entworfen.

Als direkter Vergleich kann man das von Karpathy kürzlich vorgeschlagene Autoresearch heranziehen.

Beide versuchen im Wesentlichen das Gleiche: AI soll Ideen automatisch entwickeln, Experimente durchführen, Ergebnisse vergleichen und basierend auf den Ergebnissen weiter iterieren.

Der Unterschied ist, dass Autoresearch in der digitalen Welt stattfindet. Wenn der Code fehlerhaft ist, kann man ihn einfach neu schreiben. Wenn ein Experiment fehlschlägt, kann man es neu starten.

Die Rechenleistung ist fast die einzige Kostenfaktor. ENPIRE bringt diesen Forschungszyklus erstmals in die physikalische Welt. Roboter sind kein Code.

Man kann nicht einfach einen beschädigten Roboterarm mit Git Revert zurücksetzen. In der realen Welt ändern sich die Reibungskräfte, die Positionen der Gegenstände, die Beleuchtung und die Sensoren erzeugen Rauschen.

Der Kernwert von ENPIRE liegt darin, die chaotische physikalische Welt durch automatische Rücksetzung, automatische Bewertung und Sicherheitskontrollschnittstellen in eine Experimentumgebung zu verwandeln, die von den Agenten wiederholt genutzt werden kann.

Für die Agenten hat die reale Welt erstmals eine ähnliche Iterierbarkeit wie eine Softwareentwicklungsumgebung.

Eine weitere interessante Entdeckung ist das sogenannte „physikalische Scaling“.

In der Vergangenheit hat man bei großen Modellen die Parameter, die Daten und die Rechenleistung skaliert. ENPIRE beginnt nun, die Anzahl der Experimente zu skalieren.

In der Forschungsarbeit nutzen acht Agenten jeweils einen Roboter und erkunden gleichzeitig verschiedene Ansätze.

Das Ergebnis ist, dass die Zeit, um die Zielerfolgsrate beim Pin Insertion -Task zu erreichen, von 1,5 Stunden im Ein -Roboter -Modus auf 40 Minuten verkürzt wurde.

Mit anderen Worten: Wenn man in der Vergangenheit GPU -Cluster erweitert hat, erweitert ENPIRE nun eine Roboterflotte.

Naturgemäß ist dieses Scaling nicht billig.

Mit zunehmender Anzahl der Agenten müssen die Agenten den Code der anderen lesen, die Entdeckungen der anderen verstehen, Erfahrungen sammeln und das Wissen synchronisieren.

Deshalb steigt der Token -Verbrauch schneller als die Anzahl der Roboter. Die Forschungsarbeit stellt sogar zwei Indikatoren vor, um diese Kosten zu messen:

  • Mean Robot Utilization: Wie viel Zeit nutzen die Roboter tatsächlich für Experimente?
  • Mean Token Utilization