Verweigert Namen, hat zwei Weltmeisterschaften: Wer ist der Mysterious in der Embodied-Community?

Wessen ist eigentlich dieses stärkste Weltmodell?

In den letzten Tagen ist das Rennen um Weltmodelle besonders lebhaft geworden.

Das Raumintelligenz-Unicorn World Labs von Fei-Fei Li hat mit Fanfare das "Spark 2.0" vorgestellt. Sofort darauf hat Alibaba sein Weltmodell "Happy Oyster" online gestellt.

Fast gleichzeitig hat Physical Intelligence auch ein neues Modell, das π 0.7, veröffentlicht und betont, dass es über eine anfängliche kombinatorische Generalisierungsfähigkeit für unbekannte Aufgaben und die Fähigkeit zur Migration zwischen verschiedenen Roboternplattformen verfügt.

Diese Reihe von Aktionen sendet ein Signal: Der Fokus des Wettbewerbs in der Branche hat sich von der Fähigkeit, einzelne Aktionen auszuführen, hin zu der Frage verschoben, wer es am ehesten schafft, "die Welt vorherzusagen" und "Aktionen anzutreiben" in einem einzigen Modell zu vereinigen.

An diesem Punkt hat ein mysteriöses Weltmodell namens MotuBrain still und leise die Spitze zweier internationaler Benchmarks erreicht, ohne dass irgendein Unternehmen benannt wurde.

Wenn es sich nur um den ersten Platz in einer Liste handeln würde, wäre das vielleicht nicht so bemerkenswert.

Das Problem ist jedoch, dass es die ersten Plätze in zwei Listen errungen hat, die fast die "zwei Pole" der Branche repräsentieren: Die eine ist die WorldArena, die misst, "ob ein Weltmodell die reale Welt wirklich versteht und vorhersagen kann"; die andere ist die RoboTwin2.0, die die Aufgabenausführungsfähigkeit und die Generalisierungsfähigkeit von Robotern misst. Die eine misst eher die Weltvorhersage, die andere die Aufgabenausführung. Zusammen entsprechen sie genau der Branchenfrage, die man derzeit am ehesten lösen möchte.

Bei der WorldArena hat MotuBrain mit einem Gesamtscore von 63,77 EWM den ersten Platz belegt. Die Ergebnisse zeigen, dass es Modelle wie ABot von AutoNavi und GigaWorld-1 von Excellent übertrifft und in mehreren wichtigen Bewegungsdimensionen wie Motion Quality, Flow Score und Motion Smoothness führend ist.

Bildquelle: https://huggingface.co/spaces/WorldArena/WorldArena

Bei der RoboTwin2.0 hat MotuBrain in den Szenarien "Clean" und "Randomized" jeweils 95,8 bzw. 96,1 erreicht und ebenfalls den ersten Platz belegt. Es ist das einzige Modell auf der Liste, das im zufälligen Umfeld einen Durchschnitt von über 95 erreicht hat und in den meisten konkreten Aufgaben 100 oder fast 100 Punkte erzielt hat. Im Vergleich zu Modellen wie ABot von AutoNavi, LingBot von Ant, JEPA-VLA und pi0.5 hat MotuBrain in den RoboTwin-Benchmarks eine dominierende Leistung gezeigt.

Genau dieses "Doppel-Sieger-Ergebnis" hat uns auf dieses Modell mit unbekanntem Ursprung aufmerksam gemacht.

Nach einer einfachen Suche im Internet konnten wir bisher keine Informationen über MotuBrain finden. Allerdings haben wir ein neu registriertes X-Konto entdeckt, das diesen Monat erstellt wurde.

Dies lässt uns an das "Happy Horse" denken, das vor kurzem von Alibaba beansprucht wurde (und auch ein X-Konto eröffnet hat).

Kann es sein, dass auch dieses mysteriöse Weltmodell von einer großen chinesischen Firma stammt?

Warum sind die Ergebnisse von MotuBrain bemerkenswert?

WorldArena und RoboTwin sind keine Tests des gleichen Typs. Sie messen zwei verschiedene Fähigkeiten.

Die WorldArena misst die Dimension des Weltmodells, einschließlich der Fähigkeit des Modells, Bewegungsgesetze zu verstehen, genaue Vorhersagen über physikalische Veränderungen in Zeitreihen zu treffen und die Umweltzustandsänderungen zu erkennen. Dies ist die Fähigkeit, die Welt vorherzusagen.

Die RoboTwin misst eher die Dimension des Aktionsmodells oder des Strategiemodells. Beispielsweise kann das Modell in verschiedenen Aufgaben und Umgebungen stabile Aktionen ausführen, auf unbekannte Szenarien generalisieren und komplexe Operationen kontinuierlich ausführen. Dies sind die Fähigkeiten, um in der Welt zu handeln.

Stellen Sie sich vor: Ein menschlicher Fahrer kann auf komplizierten Straßen sicher fahren, nicht nur dank seiner Muskelgedächtnisse, sondern auch dank seiner ständigen Vorhersage, was im nächsten Moment passieren wird. Beispielsweise: Wird das Vordermann plötzlich bremsen? Wird ein Fußgänger plötzlich die Straße überqueren? Diese gleichzeitige Vorhersage und Handlung ist die zugrunde liegende Logik der menschlichen Intelligenz.

Die meisten vorhandenen Robotersysteme fehlt genau diese Ebene. Entweder können sie die Welt verstehen, aber wissen nicht, wie sie sich bewegen sollen, oder sie können feste Aktionen ausführen, aber keine Vorhersagen über Umweltveränderungen treffen. Das Ergebnis ist, dass Roboter außerhalb ihrer Trainingsszenarien leicht außer Kontrolle geraten.

In den letzten Jahren haben verschiedene Teams in diesen beiden Richtungen gearbeitet, aber oft getrennt voneinander. Teams, die sich mit Videogenerierung und Weltmodellen beschäftigen, konzentrieren sich darauf, ob das Modell die physikalische Welt realistisch simulieren kann. Teams, die sich mit Roboterstrategien und VLA befassen, konzentrieren sich darauf, wie das Modell in konkreten Aufgaben zuverlässig agieren kann. Es gibt nur wenige Arbeiten, die versuchen, beide Aspekte zu vereinigen, und noch weniger mit stabilen Ergebnissen.

MotuBrain hat den ersten Platz in beiden Benchmarks erreicht. Dies bestätigt zumindest auf Benchmark-Ebene, dass der Weg, die Weltvorhersage und die Aktionseinleitung in einem einzigen Modell zu vereinigen, gangbar ist.

Worin liegt der Sieg bei den Doppel-Sieger-Ergebnissen?

Bei der WorldArena-Liste ist es bemerkenswert, dass MotuBrain in diesen Dimensionen führend ist.

Erster Platz in Motion Quality: Dies bedeutet, dass die vom Modell generierten Bewegungen realistischer sind und nicht nur wie visuelle Effekte aussehen.
Erster Platz in Flow Score: Dies zeigt, dass das Modell die zusammenhängenden Bewegungen und Bewegungsbahnen besser versteht und stabile Vorhersagen über starke Bewegungsänderungen treffen kann. Es kann die Bewegungen von einem Moment zum nächsten nahtlos verbinden, anstatt sie Bild für Bild zusammenzusetzen.
Erster Platz in Motion Smoothness: Dies bedeutet, dass die generierten Bewegungen den realen physikalischen Gesetzen entsprechen und keine unnatürlichen plötzlichen Beschleunigungen, Zittern oder Richtungsänderungen aufweisen.

Diese drei Dimensionen sind direkt mit der Bewegung verbunden. Für ein zukünftiges Weltmodell, das für Roboter eingesetzt werden soll, sind dies die wichtigsten Fähigkeiten.

Bei der RoboTwin, die eher auf die Aufgabenausführung ausgerichtet ist, wird dieser Vorteil noch verstärkt. Bei 50 Aufgaben und zwei verschiedenen Umgebungsbedingungen hat MotuBrain einen Durchschnittswert von 96,0 erreicht, was deutlich höher ist als der Wert von 92,3 des Zweitplatziers. Die Vorsprungshöhe ist fast so groß wie die Differenz zwischen dem zweiten und dem fünften Platz.

Das Wichtigste ist die Stabilität. Die Erfolgsquote beträgt in der Hälfte der Aufgaben 100 % und in neunzig Prozent der Aufgaben über 90 %. Dies bedeutet nicht nur, dass es die Aufgaben richtig ausführt, sondern auch, dass es in einer Umgebung mit mehreren Aufgaben und zufälligen Störungen stabile Ergebnisse erzielen kann.

Betrachtet man diese Ergebnisse zusammen, deuten sie auf Eigenschaften hin, die einem allgemeinen Robotergehirn näherkommen. Es kann die Kontinuität und Einheit der Bewegungen aufrechterhalten und hat die Fähigkeit, auf verschiedene Aufgaben zu generalisieren.

Wer steckt dahinter und welchen Weg geht es?

Zurzeit gibt es nur wenige öffentliche Informationen über MotuBrain. Aber aus den Ergebnissen der beiden Listen lässt sich vermuten, dass es wahrscheinlich weder ein traditionelles Videomodell noch ein reines VLA- oder Strategiemodell ist.

In den letzten Jahren hat die Branche verschiedene repräsentative Ansätze bei der Erforschung von Weltmodellen und Aktionsmodellen entwickelt.

Einige Teams betonen das einheitliche Weltmodell. Sie kombinieren visuelle, sprachliche, videobasierte und bewegungsbezogene Modelle, um die Wahrnehmung, Planung, Vorhersage, Ausführung und Generalisierung über verschiedene Aufgaben hinweg in einer realen Umgebung zu ermöglichen. Ein typisches Beispiel ist das Motus, das im Dezember letzten Jahres veröffentlicht wurde.

Andere Teams verfolgen eher den Ansatz "zuerst vorstellen, dann handeln". Beispielsweise verwendet das Lingbot-VA, das Anfang Januar dieses Jahres veröffentlicht wurde, ein Videomodell, um zukünftige Videos vorherzusagen und dann die Entscheidungen der Roboteraktionen zu steuern. Beide Aspekte werden in einem Modell integriert.

Es gibt auch Teams, die den Ansatz "gleichzeitige Vorhersage des zukünftigen Zustands + Generierung von Aktionen" verfolgen. Sie handeln, während sie die Vorhersage treffen. Ein Beispiel ist das DreamZero von NVIDIA, das Anfang Februar veröffentlicht wurde.

Aus der Leistung von MotuBrain lässt sich vermuten, dass es eher einen Ansatz des Welt-Aktionsmodells verfolgt. Es hat sowohl die Fähigkeit des Weltmodells, die Umwelt und den zukünftigen Zustand vorherzusagen, als auch die Fähigkeit des Aktionsmodells, reale Aufgaben auszuführen.

Dies erklärt auch, warum es in beiden Benchmarks, "Weltmodellierung" und "Aktionsausführung", die Spitze erreicht hat.

Fazit

Wenn man einen Roboter zerlegt, kann man verstehen, dass die "Hände und Füße" die Hardware und das "Gehirn" die Software sind.

In den letzten Jahren hat sich die Iterationsgeschwindigkeit der Roboterhardware deutlich verbessert. Die Bewegungssteuerung wird genauer, die Sensoren werden vielfältiger und die Kosten sinken. Aber das, was die breite Einführung von Robotern wirklich behindert, ist das "Gehirn", das die Aufgaben steuert.

Heutige Roboter sind im Wesentlichen "spezialisierte Systeme, die für bestimmte Aufgaben trainiert wurden". Wenn man das Szenario, das Objekt oder den Befehl ändert, kann das System komplett versagen. Dies liegt in hohem Maße an der Intelligenz des Roboters.

Das Ziel der Embodied Intelligence ist es, ein einheitliches Modell zu entwickeln, das sowohl die physikalische Welt verstehen und Zustandsänderungen vorhersagen kann als auch daraus zuverlässige Aktionen ableiten kann, um beliebigen Aufgaben und Szenarien gerecht zu werden.

Das Kapital hat bereits mit echten Geldern seine Meinung geäußert.

Wenn man sich die letzten großen Finanzierungen anschaut, wird deutlich, dass die Gelder in Unternehmen fließen, die das "Gehirn" von Robotern entwickeln. Auf den ersten Blick investiert man in Roboter, aber tatsächlich geht es darum, den Zugang zu der nächsten Generation von "Robotersystemen" oder "allgemeinen physikalischen Gehirnen" zu sichern.

So gesehen steht die einheitliche Architektur von Welt- und Aktionsmodell, wie sie von Motubrain repräsentiert wird, genau im Mittelpunkt dieses Wettlaufs.

Wer hinter Motubrain steckt und was es als Nächstes bringt, wird wahrscheinlich nicht lange im Unklaren bleiben.

Dieser Artikel stammt aus dem WeChat-Account "MachineHeart" (ID: almosthuman2014). Autoren: Yang Wen, Chen Chen. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Verweigert, seinen Namen preiszugeben, aber hat zwei Weltmeisterschaften errungen: Die Großen in der Embodied-Community fragen sich alle, wer es ist.

Warum sind die Ergebnisse von MotuBrain bemerkenswert?

Worin liegt der Sieg bei den Doppel-Sieger-Ergebnissen?

Wer steckt dahinter und welchen Weg geht es?

Fazit