Benchmark: Die am meisten fehlende "Infrastruktur" für die Forschung zur Embodied Intelligence

Um reich zu werden, baue zuerst Straßen.

Das Ziel dieses Wettbewerbs besteht nicht darin, zu zeigen, was Roboter bereits können, sondern möglichst genau zu bestimmen, was sie vorerst noch nicht können.

Dies ist genau die Information, die die Branche für Entscheidungen am dringendsten benötigt. Dieser Wettbewerb bringt daher möglicherweise nicht nur die Euphorie auf der Rangliste mit sich, sondern wird die Forscher auf jeden Fall dabei helfen, die reale Situation der Technologie zu erkennen. Der Modellwettbewerb ist nur ein Aspekt der rapiden technologischen Entwicklung.

Wenn ManipArena kontinuierlich betrieben werden kann, wird es nicht nur die Rangliste aufzeichnen, sondern möglicherweise auch die Zeitmarke für die Industrialisierung der Embodied Intelligence sein.

Das strukturelle Dilemma von Embodied Intelligence-Modellen besteht darin, dass einerseits die Modelle rasant weiterentwickelt werden, andererseits aber die Referenzwerte hinterherhinken.

Mit anderen Worten, es gibt bisher keine wissenschaftliche und zuverlässige Bewertungsstandard für Embodied Models, um sie von einer diffusen "wild wachsenden" Phase in eine Phase des "aufwärts wachsenden" zu bringen.

Wie das Holz erst gerade wird, wenn es an der Leine gemessen wird, brauchen auch Embodied Models ein wissenschaftliches Benchmark, um sie fein zu bewerten, zu diagnostizieren und sogar die zukünftige Forschungsrichtung zu leiten. Derzeit ist die Weiterentwicklung und Industrialisierung der Modelle jedoch stark eingeschränkt, da es seit langem an einem einheitlichen und hochwertigen Testsystem für reale Maschinen mangelt.

Tatsächlich durchläuft jede Branche, die von der technologischen Erforschung zur Massenproduktion gelangt, eine Phase von "Vielseitigkeit" bis hin zur "Standardisierung".

Dies ist ein erfolgreicher Weg, der in mehreren Branchen mit Billionen-Marktvolumen bestätigt wurde. In der Internet-Ära haben die Protokollstandards die weltweite Vernetzung des Internets ermöglicht; auch der Ausbruch des Deep Learning ist auf ein Bewertungssystem zurückzuführen. Sie schaffen zwar keine Produkte direkt, bestimmen aber die Richtung und Geschwindigkeit des technologischen Fortschritts.

Embodied Intelligence befindet sich derzeit in einer ähnlichen frühen Phase. In den letzten zwei Jahren gab es von VLA (Vision-Language-Action)-Modellen bis hin zu Weltmodellen unzählige technologische Ansätze, und die Forschungsansätze waren hochgradig verstreut. Die Branche mangelt jedoch nicht an Modellen oder Demonstrationsvideos, sondern an einem einheitlichen Maßstab, der beantworten kann, "wie gut ein Modell in der realen Welt tatsächlich ist".

Ohne Benchmark bleibt die Verbesserung der Modelle größtenteils auf der narrativen Ebene. Mit einem Benchmark erhält der technologische Fortschritt industriellen Wert, der überprüfbar, reproduzierbar und akkumulierbar ist.

Vor diesem Hintergrund hat die Eröffnung des offiziellen Wettbewerbs ManipArena bei der CVPR 2026 nicht nur die Bedeutung eines weiteren Wettbewerbs, sondern versucht, eine der wichtigsten, aber seit langem fehlenden Infrastrukturen im Bereich der Embodied Intelligence zu schaffen: ein einheitliches Bewertungssystem für die reale Welt.

Noch wichtiger ist, dass eine nachhaltig betriebene Forschungsplattform ständig Daten sammeln, Ergebnisse validieren und die Weiterentwicklung der Modelle unterstützen kann, um einen positiven Zyklus von "Bewertung - Verbesserung - erneute Bewertung" zu bilden, der das gesamte Feld von einer ungeordneten Erforschung hin zu einer systematischen Evolution bringen kann.

ManipArena misst nicht die Fähigkeiten, sondern die Grenzen der Modelle

Auf den ersten Blick ist ManipArena ein Wettbewerb für Roboteroperationen, aber seine Entwurfsphilosophie ist eher einer systematischen Fähigkeitsmessung vergleichbar.

Seit langem basiert die Bewertung von Robotern auf Simulationsumgebungen oder auf sorgfältig geplanten und stark vereinfachten Tischgreifaufgaben. Obwohl diese Benchmarks den Fortschritt der Algorithmen vorangetrieben haben, spiegeln sie die Komplexität der realen Welt nur schwer wider. Die langfristige Entscheidungsfindung, die räumliche Bewegung, die multimodale Wahrnehmung und die unvorhersehbaren physikalischen Interaktionen, die die reale Welt widerspiegeln können, werden oft von der Bewertung ausgeschlossen. Dies führt dazu, dass die Forscher wie blinde Hirsche vorwärts rennen müssen, die Modelle nicht präzise weiterentwickeln können und die Modelle möglicherweise im Labor gut abschneiden, aber in der realen Welt schwer anwendbar sind.

Das Kernziel von ManipArena besteht gerade darin, diese Lücke zu schließen. Der Wettbewerb umfasst 20 reale Roboteraufgaben und wird in einer einheitlichen Umgebung mit realen Maschinen bewertet, wobei Schlüsselaspekte wie Inferenzfähigkeit, Generalisierungsfähigkeit, langfristige Entscheidungsfindung und multimodale Wahrnehmung abgedeckt werden. Im Vergleich zu den bisherigen "einfachen Greif"-Tests ist dies eher eine systematische Prüfung der vollständigen Handlungsfähigkeit.

Der ManipArena-Wettbewerb hat viel Zeit für eine wissenschaftliche Gestaltung aufgewendet. Ein wichtiges Designmerkmal ist die Regel "Ein Modell für alle Aufgaben" (One Model for All Tasks). Die Teilnehmer dürfen nicht für verschiedene Aufgaben separate Modelle trainieren, sondern müssen alle Herausforderungen mit einer einheitlichen Strategie bewältigen. Diese Regel zielt im Wesentlichen darauf ab, allgemeine Fähigkeiten zu selektieren, statt einzelne Fertigkeiten oder Überanpassung an bestimmte Aufgaben.

Ein weiteres wichtiges Designmerkmal ist die hierarchische OOD (Out-of-Distribution)-Bewertung. Jede Aufgabe wird durch mehrdimensionale Veränderungen wie physikalische Eigenschaften, räumliche Anordnung und semantische Kombinationen in verschiedene Schwierigkeitsgrade unterteilt, um das Verhalten des Modells in unbekannten Situationen systematisch zu testen, von Veränderungen innerhalb des Bereichs bis hin zur semantischen Extrapolation. Dadurch wird die Bewertung nicht nur auf eine Punktzahl reduziert, sondern es wird eine Fähigkeitskurve erstellt, die zeigt, wo das Modell bei der Wahrnehmung, der Inferenz oder der Ausführung scheitert.

Darüber hinaus erweitert ManipArena den Bewertungsbereich von Tischoperationen auf mobile Aufgaben, die Navigation und Ganzkörpersteuerung umfassen, wie z. B. das Ordnen von Kleidung, das Aufhängen von Bildern und das Einlagern von Gegenständen, und deckt somit Handlungsszenarien ab, die der realen Lebenssituation näher kommen. Dies bedeutet, dass es nicht mehr die "Fähigkeiten des Roboterarms" bewertet, sondern die "Fähigkeiten des Embodied Systems".

Mit anderen Worten, das Ziel dieses Wettbewerbs besteht nicht darin, zu zeigen, was Roboter bereits können, sondern möglichst genau zu bestimmen, was sie vorerst noch nicht können.

Dies ist genau die Information, die die Branche für Entscheidungen am dringendsten benötigt. Dieser Wettbewerb bringt daher möglicherweise nicht nur die Euphorie auf der Rangliste mit sich, sondern wird die Forscher auf jeden Fall dabei helfen, die reale Situation der Technologie zu erkennen.

Von Wettbewerb zu Forschungsinfrastruktur: Der Wendepunkt für Embodied Intelligence ist erreicht

Die tiefere Bedeutung von ManipArena liegt vielleicht darin, dass es nicht nur ein Wettbewerb ist, sondern eine nachhaltig betriebene Forschungsplattform mit Merkmalen wie "regelmäßige Bewertung", "kontinuierlicher Betrieb" und "deutliche Senkung der Einstiegshürde".

Zunächst verfügt es über die Fähigkeit zur regelmäßigen Bewertung. Die Teilnehmer können Modelle auf der Grundlage öffentlicher Daten trainieren und Algorithmen über eine Remote-Schnittstelle einreichen. Die Plattform führt dann die Tests mit realen Maschinen durch und gibt die Ergebnisse zurück. Dieser Mechanismus eignet sich nicht nur für Wettbewerbe, sondern auch für die tägliche Forschungsvalidierung, wodurch es zu einem dauerhaft nutzbaren Benchmark wird, anstatt einer einmaligen Veranstaltung.

Zweitens bietet die Plattform hochwertige Daten aus der realen Welt und ein feines Bewertungssystem, darunter 188 Stunden hochwertige Daten von realen Maschinen, und verspricht, in Zukunft kontinuierlich Daten zu veröffentlichen, um die Modellbildung und -analyse direkt zu unterstützen. In der Robotik ist die Erfassung realer Daten äußerst kostspielig, und diese konzentrierte Bereitstellung ist an sich eine wichtige Forschungsinfrastruktur.

Am wichtigsten ist jedoch, dass es die Einstiegshürde deutlich senkt. Forschungsgruppen müssen keine teuren Roboterausrüstungen kaufen und können die gesamte Bewertungsprozedur nur mit einem GPU-Server durchführen.

Dies ist ein sehr wichtiger Wendepunkt. Die Forschung in der Embodied Intelligence war lange Zeit durch die Hardwarekosten eingeschränkt, und nur wenige Labore hatten einen Vorsprung bei der Ausrüstung, während die meisten Teams Schwierigkeiten hatten, Experimente in der realen Welt durchzuführen. Der Remote-Testmechanismus für reale Maschinen ermöglicht es mehr Forschern, an der Konkurrenz teilzunehmen und erweitert die Quellen der Innovation.

Übrigens vermeidet diese einheitliche Hardware die Auswirkungen von Hardwareunterschieden auf die Ergebnisse. Da die Hardware wie die "Quanten-1" AI-native und für Modelle entwickelt wurde, kann sie die Leistung der Modelle besser nutzen. Wenn ManipArena tatsächlich langfristig betrieben werden kann, wird es auch zur Bildung eines einheitlichen Hardwarestandards beitragen.

Wenn die Leistungsunterschiede hauptsächlich von den Algorithmen und nicht von der Ausrüstung bestimmt werden, wird der Fokus der Forschung stärker auf die Modelle gelegt, was den Wettbewerb und die Standardisierung auf der Softwareebene beschleunigt.

Um reich zu werden, muss man zuerst Straßen bauen. Heute fehlt der Embodied-Intelligence-Forschung, die von einer ungeordneten Entwicklung hin zu einer geregelten Entwicklung gelangen möchte, genau eine stabile und wissenschaftliche Infrastruktur.

Autonome Variable wird Branchenvariable

Die Außenwelt mag sich fragen, warum es eine Modellfirma ist, die diese Arbeit vorantreibt. Die Antwort liegt gerade darin, dass nur diejenigen, die tatsächlich Modelle entwickelt haben, am besten wissen, wo die Grenzen und potenziellen Schwachstellen der Modelle liegen.

Zunächst muss man verstehen, dass Benchmarks nie neutral sind. Sie beinhalten Annahmen über die zukünftige technologische Richtung:

- Beispielsweise setzt ManipArena den Schwerpunkt auf Inferenz, langfristige Entscheidungsfindung und multimodale Fusion, was in Wirklichkeit eine Beurteilung der Hauptentwicklungspfade der Embodied Intelligence darstellt und eine technologische Korrektur der bisherigen einfachen Aufgabenbewertungen ist; - Darüber hinaus betont die offengelegte mehrdimensionale Daten im Wettbewerb speziell den Motorstrom und die Gelenkgeschwindigkeit. Wie die Offizielle Seite sagt, "können Motorstrom und Gelenkgeschwindigkeit als Ersatzsignale für Kraft und Kontakt dienen, und die derzeitigen Hauptmodelle (VLA, Weltmodell) nutzen diese Signale nicht effektiv". Die gezielte Veröffentlichung dieser Daten durch ManipArena wird die Forschung zu kraftempfindlichen Strategien fördern;

- Darüber hinaus betont die Offizielle Seite in ihren Erklärungen mehrmals, dass VLA und Weltmodelle im Wettbewerb konkurrieren sollen, um zu sehen, welche Vor- und Nachteile sie haben. Dies zeigt in gewissem Maße auch den technologischen Trend an.

Zweitens kennen diejenigen, die Modelle entwickelt haben, besser, wie Modelle "tricksen" können. In vielen Benchmark-Tests können Modelle durch statistische Abweichungen, Umgebungsregeln oder bestimmte Tricks hohe Punktzahlen erzielen, ohne echte allgemeine Fähigkeiten zu besitzen. Das Design von ManipArena versucht offensichtlich, diese Probleme zu vermeiden. Beispielsweise sollen die einheitliche Umgebung, die gleichmäßige Verteilung von Veränderungen und die Anforderung an ein über alle Aufgaben hinweg gültiges Modell Überanpassung und Spekulation verhindern.

Drittens basiert das Design eines wirklich wissenschaftlich wirksamen Benchmarks oft auf einer großen Menge an Erfahrung. Nur diejenigen, die von Grund auf alles selbst entwickelt haben und genügend Probleme bewältigt haben, wissen, wo die Modelle versagen können. In diesem Sinne ist die Aussage "Wer viele Aufgaben gelöst hat, kann besser Aufgaben stellen" keine Scherz, sondern eine technologische Realität. Das Bewertungssystem ist im Wesentlichen eine strukturierte Niederschrift der bisherigen Forschungserfahrungen und eine Führung für die zukünftigen technologischen Wege.

Als Unternehmen, das sich langfristig für den end-to-end-Ansatz von Embodied Large Models einsetzt, hat Autonome Variable intensiv an der Entwicklung von VLA bis hin zur Fusion von Weltmodellen teilgenommen und hat erste Erfahrungen mit den Grenzen und Versagensmodi der Modelle in der realen physikalischen Welt gesammelt.

Sein selbstentwickeltes WALL-A-Modell ist das erste, das VLA und Weltmodelle tiefgehend fusioniert und in einem einheitlichen multimodalen Ein- und Ausgabearchitektur einen Embodied multimodalen Denkablauf einführt. Durch die Vorhersage von Raum-Zeit-Zuständen, die visuelle kausale Inferenz und den lernbaren Gedächtnismechanismus kann der Roboter in unstrukturierten Umgebungen eine stärkere Nullproben-Generalisierungsfähigkeit erreichen. Gleichzeitig sammelt das Modell durch die intensive Reinforcement Learning mit realen Maschinen hochwertige Erfahrungen in der kontinuierlichen Interaktion mit der physikalischen Welt, repariert selbst Probleme im Schwanzbereich und bildet einen technologischen Zyklus von "Grundmodell - reale Interaktion - Fähigkeitsentwicklung". Auf dieser Grundlage veröffentlichte WALL-OSS auch eine ausgezeichnete langfristige Handlungsfähigkeit, kausale Inferenz und räumliche Verständnisfähigkeit.

Genau diese ganzheitliche Praxis von der Modellarchitektur über die Trainingsmethode bis hin zur realen Implementierung macht Autonome Variable nicht nur zu einem Experten in Bezug auf die Hürden der Modellbildung und einen Mitläufer der technologischen Entwicklung, sondern auch zu einem aktiven Gestalter des Bewertungssystems für Embodied-Intelligence-Fähigkeiten. Bei einer technologischen Revolution kommt es nicht darauf an, welches Unternehmen technologisch stärker ist, sondern darum, dass sich langsam ein zuverlässiger Maßstab in der Branche etabliert. Dies gilt auch für den Bereich der Embodied Intelligence.

Der Modellwettbewerb ist nur ein Aspekt der rapiden technologischen Entwicklung. Wenn ManipArena kontinuierlich betrieben werden kann, wird es nicht nur die Rangliste aufzeichnen, sondern möglicherweise auch die Zeitmarke für die Industrialisierung der Embodied Intelligence sein.

Dieser Artikel stammt aus dem WeChat-Account

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Benchmark, die am meisten fehlende "Infrastruktur" für die Forschung zur Embodied Intelligence

ManipArena misst nicht die Fähigkeiten, sondern die Grenzen der Modelle

Von Wettbewerb zu Forschungsinfrastruktur: Der Wendepunkt für Embodied Intelligence ist erreicht

Autonome Variable wird Branchenvariable