Huangs Cosmos 3 wurde erst einen Tag nach seiner Veröffentlichung von einem chinesischen Unternehmen überholt.
Am 1. Juni hielt Huang Renxun auf der GTC einen ausführlichen Vortrag über Physical AI und Embodied Intelligence und stellte das sensationelle Cosmos 3 vor. NVIDIA definiert es als das neueste Frontmodell für Physical AI und als das weltweit erste vollständig offene Allroundmodell, das von Natur aus über visuelle Inferenz-, Weltgenerierungs- und Handlungsgenerierungsfähigkeiten verfügt.
Huang Renxun sagte stolz, dass Cosmos 3 auf allen wichtigen Weltranglisten an erster Stelle unter den offenen Modellen steht.
Jedoch nur einen Tag später wurde die RoboArena-Rangliste aktualisiert, und das Spirit v1.6 des chinesischen Unternehmens Qianxun Intelligence übertraf Cosmos 3 und belegte die erste Stelle weltweit.
Warum ist RoboArena aufmerksam zu werden wert?
Weil es ein zentrales Problem bei der Bewertung von Robotergrundmodellen anspricht: Viele Modelle können in Simulationsumgebungen oder statischen Benchmarks gut abschneiden, aber sobald es um reale Roboter, reale Objekte und reale Fehler geht, ist es schwierig, stabile Ergebnisse zu reproduzieren.
Wir können RoboArena als die Embodied-Roboterversion von LMArena verstehen. Der Unterschied besteht darin, dass LMArena die Qualität der Antworten von Large Language Modellen misst, während RoboArena die Fähigkeit von Robotern misst, Aufgaben in der realen Welt zu erfüllen. RoboArena wurde von Institutionen wie der UC Berkeley, Stanford und NVIDIA initiiert, und der zugehörige Artikel wurde für den CoRL 2025 Oral akzeptiert.
Genauer betrachtet kann der Mechanismus von RoboArena in vier Punkte aufgeteilt werden: Verteilte Zusammenarbeit, doppelt blinde Duelle, Elo-ähnliche dynamische Rangliste, offenes Bewertungsnetzwerk. Die verteilte Zusammenarbeit erweitert die Abdeckung von Aufgaben und Umgebungen; doppelt blinde Duelle reduzieren subjektive Vorurteile bei der Bewertung; die Elo-Rangliste lässt die Rangliste wie bei Sportveranstaltungen kontinuierlich aktualisiert werden; das offene Bewertungsnetzwerk ermöglicht es, dass mehr Modelle auf der gleichen realen Bühne getestet werden können.
Deshalb liegt die Bedeutung von RoboArena darin, die Bewertung von Embodied Intelligence von "statischen Benchmarks" in die Richtung von "Echtroboter-Kämpfen" zu bringen.
Vor diesem Hintergrund ist Qianxun Intelligence das erste chinesische Unternehmen, das auf dieser von Silicon Valley-Giganten und Spitzenschulen gemeinsam dominierten "auswärtigen" Rangliste die erste Stelle weltweit erreicht hat. Dies bedeutet nicht nur ein Rangvorteil, sondern auch, dass Qianxun Intelligence in Bezug auf die Fähigkeit zur Ausführung von Mehrfachaufgaben, die Anpassung an reale Umgebungen und die Generalisierungsfähigkeit bereits in die weltweit erste Liga eingestiegen ist.
Worauf gründete sich der Sieg von Spirit v1.6?
Die Ergebnisse auf der Rangliste sind am Ende nur Zahlen. Überzeugender ist die operative Leistung von Spirit v1.6 in realen Aufgaben. Schauen wir uns einige Videos von doppelt blinden Vergleichen an.
Erste Aufgabe: Laptop öffnen
Dies ist keine einfache Greifbewegung. Der Roboter muss zunächst die Position und Ausrichtung des Laptops erkennen, dann entscheiden, wo er ansetzen und wie er Kraft anwenden soll, sowie wie Hand und Roboterarm zusammenarbeiten sollen, und schließlich die Öffnungsbewegung ausführen. Wenn in einem beliebigen Zwischenschritt etwas schief geht, kann die Aufgabe fehlschlagen.
Man kann sehen, dass die Bewegungen von Spirit v1.6 natürlicher ablaufen und es die Aufgabe des Laptop-Öffnens schnell erledigen kann. Im Vergleich dazu hat Cosmos 3 kaum einen effektiven Versuch unternommen.
Zweite Aufgabe: Kapibara auf den Teller legen
Diese Art von Aufgabe testet die Fähigkeit des Roboters, kleine Objekte zu erkennen, zu lokalisieren und fein zu manipulieren. Er muss nicht nur feststellen, wo sich das Zielobjekt befindet, sondern auch nach dem Greifen stabil halten und es genau an den angegebenen Ort legen.
Diesmal hat Spirit v1.6 immer noch die Erkennung, das Greifen und das Platzieren erledigt. Obwohl es während des Greifvorgangs eine kurze Anpassung gab, war die gesamte Bewegungsfolge zusammenhängend, und die Aufgabe wurde schließlich erfolgreich abgeschlossen. Im Vergleich dazu hat pi 0.5 weder das Zielobjekt erfolgreich erkannt noch ein effektives Greifen durchgeführt.
Gesamt betrachtet zeigen diese Videos deutlicher als die Zahlen auf der Rangliste die Vorteile von Spirit v1.6: Es kann nicht nur in der Bewertung höhere Punkte erzielen, sondern auch die gesamte Operation von "sehen, beurteilen, greifen, platzieren" in realen Aufgaben abwickeln.
Wenn man die Zeit zurücknimmt, ist dieses Ergebnis nicht überraschend.
Früher in diesem Jahr belegte Spirit v1.5 bereits die erste Stelle in der Echtroboter-Bewertung von RoboChallenge und erreichte 66,09 Punkte und eine Erfolgsrate von 50,33 %, was pi 0.5 von Physical Intelligence übertrifft. Offizielle Berichte zeigen, dass v1.5 in Aufgaben wie der kontinuierlichen Ausführung von Mehrfachaufgaben, der Zerlegung komplexer Anweisungen, dem Aufnehmen von Objekten, dem Blumensträußen und dem Bewegen von Objekten bereits eine gute Stabilität gezeigt hat.
Von v1.5 zu v1.6 ist die Zeit nicht lang, aber Qianxun Intelligence hat erneut auf RoboArena die Führung übernommen. Dies ist das Ergebnis eines kontinuierlichen Iterationsmechanismus von Qianxun Intelligence: kontinuierliche Erfassung von Daten aus realen Szenarien, kontinuierliche Analyse von Fehlern und kontinuierliche Rückführung der Bewertungsergebnisse in das Training und die Ingenieuroptimierung.
Embodied Intelligence-Modelle unterscheiden sich von reinen Softwaremodellen. Sie werden nicht automatisch stärker, wenn man einfach die Trainingsgröße erhöht. In der realen Welt gibt es Reibung, Verdeckungen, Fehler, Verzögerungen und viele unsichere Faktoren. Je näher man an die realen Szenarien herankommt, desto wichtiger werden die Fähigkeiten der Ingenieurorganisation, des Daten-Closed-Loops und der Iterationsgeschwindigkeit.
Die Leistung von Spirit v1.6 auf der Rangliste zeigt, dass Qianxun Intelligence diesen Closed-Loop in Gang gebracht hat.
Der entscheidende Faktor liegt in den Daten der realen Welt
Auf der GTC betonte Huang Renxun wiederholt, dass es schwierig ist, Daten für Physical AI zu erhalten.
Der Grund ist einfach. Es gibt viele Internetvideos, aber die meisten sind aus der dritten Person. Was Roboter wirklich brauchen, sind Daten aus der ersten Person, die handlungsfähig und rückkoppelbar sind. Das heißt, Roboter müssen nicht nur "die Welt gesehen haben", sondern auch verstehen, wie sie in der Welt sich bewegen, Objekte berühren, greifen und verändern können.
Eines der Ziele von Cosmos 3 ist es, das Problem des Datenmangels in der Robotikbranche durch Omniverse, Fernsteuerung und Perspektivwiederprojektion zu lindern. Es repräsentiert die Einschätzung von Großunternehmen in Bezug auf Physical AI: In der nächsten Phase hängt die Verbesserung der Modellfähigkeiten nicht nur von Parametern und Rechenleistung ab, sondern auch davon, ob man ein größeres, höherwertiges und roboterhandlungsnäheres Datensystem aufbauen kann.
Qianxun Intelligence beantwortet dieselbe Frage, aber auf einem anderen Weg.
Qianxun Intelligence legt mehr Wert auf die kontinuierliche Akkumulation von Daten aus der realen Welt. Offizielle Informationen zeigen, dass Qianxun Intelligence bereits 7 Generationen von leichten tragbarem Datenerfassungsgeräten entwickelt hat und in mehr als 100 Städten in China ein verteiltes Datenerfassungssystem aufgebaut hat, das einen vollständigen Prozess von Erfassung, Reinigung, Annotation bis hin zur Qualitätskontrolle bildet. Das Unternehmen plant, bis 2026 Millionen von Stunden an Interaktionsdaten aus der realen Welt zu sammeln.
Die tragbaren Datenerfassungsgeräte von Qianxun Intelligence erfassen Daten gleichzeitig in mehreren Städten in China.
Dieses System kann als das "Datenpyramidsystem" von Qianxun Intelligence verstanden werden.
Die unterste Ebene besteht aus großen Mengen an Interaktionsdaten aus der realen Welt. Wenn Roboter in Haushalte, Geschäfte, Fabriken und Lagerhäuser eindringen sollen, müssen sie die Unordnung, Veränderungen und Unregelmäßigkeiten in der realen Welt verstehen. Die sauberen und standardisierten Demonstrationsdaten aus dem Labor sind zwar wichtig, aber nicht ausreichend, um die langschwänzigen Probleme der realen Welt abzudecken.
Die Datenquellen auf dieser Ebene sind auch nicht einheitlich. Internetvideos können allgemeine visuelle Kenntnisse liefern, tragbare Geräte können den realen Handlungsprozess des Menschen aufzeichnen, Fernsteuerungsdaten helfen dem Modell, sich an den Roboter selbst anzupassen, und die Roll-outs in der realen Welt geben kontinuierlich die Fehler-, Korrektur- und Wiederherstellungsprozesse an das Modell zurück.
Die mittlere Ebene ist die Fähigkeit der Dateningenieurwissenschaft. Es ist nicht so, dass man je mehr Daten sammelt, desto besser es ist. Die Daten müssen gereinigt, annotiert, nachvollzogen und tatsächlich für das Training verwendet werden können. Insbesondere die Fehlerdaten sind in der Embodied Intelligence oft wertvoller als die Erfolgsbeispiele. Warum das Modell leer greift, warum Objekte fallen, warum es stehenbleibt oder warum es den Kontaktpunkt falsch beurteilt, all diese Informationen können das Modell bei der Iteration unterstützen.
Wenn die Daten nur "richtige Beispiele" aufzeichnen, lernt das Modell nur Standardbewegungen. Wenn die Daten auch Fehler, Rutschen, Fallen, Unterbrechungen und erneute Versuche aufzeichnen, hat das Modell die Möglichkeit, sich in unsicheren Umgebungen zu verbessern.
Die oberste Ebene ist die Modellfähigkeit und die Generalisierung von Aufgaben. Die Daten müssen schließlich in die Leistung von realen Robotern umgesetzt werden. Wenn die realen Interaktionsdaten divers genug sind und der Training- und Bewertungs-Closed-Loop stabil genug ist, ist es für das Modell leichter, in unbekannten Objekten, unbekannten Umgebungen und unbekannten Aufgaben einsatzfähig zu bleiben.
Das Qianxun-Team hat auch früher eine Beobachtung erwähnt: In der Embodied Intelligence entsteht eine ähnliche Fähigkeitskurve wie das Scaling Law. Wenn die Datenmenge um eine Größenordnung erhöht wird, kann die Erfolgsrate der Aufgaben möglicherweise einen Schritt in Richtung höherer Stabilität machen.
Das ist auch die Bedeutung von Millionen von Stunden an Interaktionsdaten aus der realen Welt. Für Roboter bedeutet es, von 90 % auf 99 % zu steigen, nicht einfach einige Experimente mehr durchzuführen, sondern mehr Objekte, komplexere Umgebungen, mehr Fehlerwiederherstellungen und längere Bewegungsfolgen abzudecken.
Von diesem Blickwinkel aus gesehen ist die Leistung von Spirit v1.6 im Wesentlichen eine externe Validierung. Sie zeigt, dass die Größe, die Qualität und die Iterations-effizienz der Daten aus der realen Welt zu einem der wichtigsten Wettbewerbsfaktoren zwischen Embodied Intelligence-Unternehmen werden.
Warum setzen die Investoren in 3 Monaten fast 5 Milliarden Yuan in Qianxun Intelligence ein?
Abgesehen von den Modellleistungen ist Qianxun Intelligence in letzter Zeit vor allem wegen seiner Finanzierungsgeschwindigkeit aufgefallen.
Aus offizielle Informationen geht hervor, dass Qianxun Intelligence in 3 Monaten vier aufeinanderfolgende Finanzierungsrunden abgeschlossen hat, und die kumulierte Finanzierungsmenge nähert sich fast 5 Milliarden Yuan. Nach Abschluss der 1,5 Milliarden Yuan starken A+-Runde werden die Mittel weiterhin in die Iteration des neuen Embodied-Basismodells, die globale Infrastruktur für reale Daten und die massenhafte kommerzielle Implementierung in verschiedenen Branchen investiert.
Dieser Finanzierungsrhythmus ist in der Embodied Intelligence-Branche nicht üblich, und der Grund liegt nicht nur in der "Hitze des Robotersektors".
Was die Investoren wirklich interessiert, ist, ob Qianxun Intelligence bereits einen nachhaltig funktionierenden Fliegenschwarm geschaffen hat: Reale Szenarien bringen reale Daten, reale Daten verbessern die Modellfähigkeit, die Modellfähigkeit wiederum unterstützt die Implementierung in mehr Szenarien, und die Implementierung in mehr Szenarien erzeugt weiterhin Daten.
Wenn dieser Fliegenschwarm funktioniert, ist der Wert des Unternehmens nicht nur ein Roboter-Hardwareunternehmen oder ein Modellunternehmen, sondern es verbindet gleichzeitig Szenarien, Daten, Modelle und Anwendungen.
Allerdings kann die Finanzierung an sich nicht beweisen, dass die Technologie unbedingt führend ist. Wichtig ist, wohin das Geld fließt.
Für Embodied Intelligence-Unternehmen umfasst der direkte Verwendungszweck der Mittel normalerweise drei Richtungen: Erstens die weitere Erweiterung der Infrastruktur für Modelltraining und -inferenz; zweitens die Erstellung eines größeren Datenerfassungs- und -verarbeitungssystems; drittens die Förderung der Implementierung in realen Szenarien. Die aktuellen Vorteile von Qianxun Intelligence liegen genau in diesen drei Bereichen.
Es hat sowohl die kontinuierliche Leistung der Spirit-Serie-Modelle in Dritt-Bewertungen als auch ein System zur Erfassung von Daten aus der realen Welt, und es setzt die Implementierung in Fabriken, Einzelhandel und Hochtechnologiefertigung um. Diese Kombination ist der Grund, warum die Investoren weiterhin in das Unternehmen setzen.
Wichtiger ist, dass Qianxun Intelligence die Kommerzialisierung nicht als "Nebenpunkt" nach der Modellveröffentlichung betrachtet, sondern als Teil der Daten- und Modelliteration.
Laut offizielle Informationen arbeitet Qianxun Intelligence mit der Bosch-Gruppe an einer globalen industriellen Szenariokollaboration, um die Ausführungskapazität von Robotern in komplexen industriellen Prozessen in einer realen Fabrikumgebung zu validieren. Im chinesischen Einzelhandelsbereich