8 Top-Experten für Embodied Intelligence diskutieren über "Nicht-Konsens": Daten, Weltmodelle und die Kunst des Geldausgebens
Text | Fu Chong
Editor | Su Jianxun
„Wenn Ihrem Unternehmen 10 Milliarden Yuan zur Förderung der Entwicklung von Embodied Intelligence (körperlicher Intelligenz) zur Verfügung stünden, wie würden Sie dieses Geld ausgeben?“
Bei dem am 20. November stattfindenden Roundtable-Forum des 2025 Zhiyuan Embodied Open Day stellte der Moderator diese offene Frage.
Die Gäste, die dieser Frage gegenüberstanden, kamen von 8 Spitzenunternehmen und Institutionen aus der nationalen Branche der Embodied Intelligence:
Wang Zhongyuan, Direktor des Zhiyuan Instituts
Luo Jianlan, Partner und Chefwissenschaftler von ZHIYUAN ROBOTICS
Wang He, Assistentprofessor an der Peking-Universität und Gründer von Galaxy Universal
Zhao Xing, Assistentprofessor an der School of Interdisciplinary Information Sciences der Tsinghua-Universität und Mitbegründer von Xinghai Graph
Cheng Hao, Gründer und CEO von Acceleration Evolution
Wang Qian, Gründer und CEO von Independent Variable
Zhang Jiaxing, Chefwissenschaftler für KI der China Merchants Group
Zhao Dongbin, Professor an der Universität der Chinesischen Akademie der Wissenschaften
„Ich denke, 10 Milliarden Yuan sind nicht genug.“ Cheng Hao, Gründer und CEO von Acceleration Evolution, antwortete lächelnd, und im Publikum ertönte ein verständnisvolles Lachen. „Wenn ich nur 10 Milliarden Yuan hätte, würde ich wahrscheinlich mehr Freunde einbeziehen, um die Branche der Embodied Intelligence voranzutreiben. Zum Beispiel würde ich das Geld in das Zhiyuan Institut investieren.“
Luo Jianlan, Partner von ZHIYUAN ROBOTICS, neigte dazu, das Geld zur Lösung des aktuellen Datenengpasses zu verwenden: „Ich würde ein eigenentwickelndes, sich selbst schließendes Daten-Drehkreuz aufbauen, das die größte der Welt ist. Man kann sagen, dass 10 Milliarden Yuan viel sind, aber auch, dass es nicht viel sind. Aber noch gibt es keine Person oder Institution, die 10 Milliarden Yuan in diese Sache investiert hat.“
Außer der Frage „wie man das Geld ausgibt“, diskutierten die 8 Gäste auch Themen, die in der Branche von Interesse sind, wie das Weltmodell, und stellten auch Überlegungen und Verbesserungsvorschläge zum derzeit vorherrschenden VLA-Paradigma auf.
Um die Kollision von Meinungen zu verstärken, wurde in diesem Roundtable-Forum eine interessante „Plakataufhebung“-Phase eingerichtet: Die Gäste mussten durch das Heben von Plakaten mit den Zahlen 1, 2 oder 3 ihre Zustimmung, Neutralität oder Ablehnung ausdrücken.
Aus den Ergebnissen der Plakataufhebung geht hervor, dass auch unter den Spitzenfachleuten im Inland Nicht-Einigkeit besteht. Der ausgeprägteste Unterschied besteht in der Lösung des Problems der „Datenknappheit“.
Zhao Xing, Mitbegründer von Xinghai Graph, und Zhang Jiaxing, Chefwissenschaftler für KI der China Merchants Group, betonten die Wichtigkeit von Daten aus der realen physischen Welt; Wang He, Gründer von Galaxy Universal, betonte hingegen, dass synthetische Daten an Orten, an denen es schwierig ist, reale Daten zu sammeln, eine wichtige Rolle spielen würden.
Wang Qian, Gründer und CEO von Independent Variable, war der Meinung, dass man gemischte Daten verwenden könnte, aber die geeignete Datenquelle je nach Aufgabe auswählen sollte.
Wie wählt und kombiniert man Daten, um einen Sprung von der Quantität zur Qualität zu erreichen? Die verschiedenen Antworten spiegeln die „erste Prinzipien“ und strategischen Schwerpunkte jedes Unternehmers wider.
Im Folgenden finden Sie die herausragenden Inhalte aus dem Forum, die von Intelligent Emergence ausgewählt wurden. Das Gespräch wurde vom Autor bearbeitet:
△ Roundtable-Forum „Embodied Model Meeting Room“ beim 2025 Zhiyuan Embodied Open Day. Bildquelle: Zhiyuan Institut
Moderator: Glauben Sie, dass das Weltmodell ein Schlüsseltechnologie für die Embodied Intelligence sein wird?
Wang He (zustimmend): Ich kann nur sagen, dass es von der Definition des Weltmodells abhängt. Nach der Entwicklung einer Reihe von Videogenerierungsmodellen wie Sora ist die ursprüngliche Definition des Weltmodells in der Verstärkungslerntechnik immer vager geworden.
Derzeit ist ein vorherrschender Ansatz, dass Roboter durch Videos menschlichen Verhaltens lernen. Aber hier gibt es ein grundlegendes Problem: Die Körperstruktur von Robotern unterscheidet sich stark von der des Menschen – ob es sich um ein Räderfahrwerk oder um zwei Arme handelt, ihre Beweglichkeit und Bewegungsraum sind anders als die des Menschen.
Deshalb ist auch, wenn das Modell realistische menschliche Bewegungen generieren kann, der praktische Nutzen dieser Daten für Roboter ziemlich begrenzt.
Allerdings ist die Vorhersagefähigkeit für die Embodied Intelligence in Zukunft unerlässlich. Roboter müssen in der Lage sein, wie Menschen, basierend auf zukünftigen Zielen, die derzeit auszuführenden Aktionen abzuleiten und die Aktionen zu planen.
Das Fazit ist also: Die Vorhersagefähigkeit, die das Weltmodell repräsentiert, ist zentral, aber seine Trainingsdaten müssen vom Roboter selbst stammen. Nur durch eine große Menge an Roboterdaten können wir ein wirklich effektives Weltmodell für Roboter trainieren.
Wang Zhongyuan (zustimmend): Das Weltmodell spielt sicherlich eine Rolle für die Embodied Intelligence, aber es ist nicht unbedingt ein grundlegendes Element für die Embodied Intelligence.
Das von uns verstandene Weltmodell ist nicht nur die Generierung eines Videos. Bei der Videogenerierung entsteht zwar auch das Bild des nächsten Frames, aber der Menschen braucht eigentlich, dass das Weltmodell basierend auf dem vorherigen Zeit-Raum-Zustand den nächsten Zeit-Raum-Zustand vorhersagen kann.
Zum Beispiel, wenn ich jetzt antworte, muss ich auf die Frage des Moderators und möglicherweise auf die Antwort von Professor Wang He basieren, um meine Antwort zu formulieren und die Entscheidung zu treffen, das Mikrofon zu greifen.
Moderator: Im Bereich der generellen Large Language Models (großen Sprachmodellen) hat eine einheitliche Architektur wie Transformer den Ausbruch von ChatGPT ausgelöst. Aber die Modelle der Embodied Intelligence haben noch nicht den Zustand erreicht, in dem ein einzelnes Large Model alle Anwendungen abdecken kann. Derzeit gibt es hierarchische Embodied Large Models, end-to-end VLA-Modelle, Weltmodelle usw.
Glauben Sie, dass die Modelle der Embodied Intelligence schließlich auf eine von einer einheitlichen Architektur dominiert werden?
Zhang Jiaxing (neutral): Ich denke, wenn die Embodied Intelligence wirklich in die Zukunft gehen will, kann man auf der Modellebene nicht auf dem Weg von den letzten drei Jahren von LLM zu VLM fortsetzen. Die Embodied Intelligence braucht eine völlig eigene Architektur.
So wie die menschliche Intelligenz zuerst mit Bewegung begann, dann mit der Wahrnehmung durch das Sehen und schließlich mit der Sprache. Die VLA-Struktur fügt zwischen der Wahrnehmung durch das Sehen und der Bewegung die Sprache ein, was eigentlich nicht der Wirklichkeit des menschlichen Handelns entspricht.
Wenn wir beispielsweise Auto fahren, können wir gleichzeitig plaudern, lauschen und die Straße beobachten. (Die Sprache ist nicht direkt am Fahren beteiligt.) Das zeigt, dass die Wahrnehmung durch das Sehen und die Bewegung miteinander verbunden sind und nicht unbedingt die Sprache beteiligt sein muss.
Einige Spitzenteams, insbesondere in Silicon Valley, arbeiten derzeit an einer neuen Architektur für multimodale Large Models. In dieser Architektur könnte der bisherige Zustand, in dem die Sprache im Vordergrund steht, möglicherweise in einen Zustand wechseln, in dem die Wahrnehmung durch das Sehen oder die Bewegung im Vordergrund steht. Dies ist ein vielversprechender Durchbruch.
Zhao Xing (zustimmend): Ich stimme vollkommen zu, dass wir ein Grundmodell brauchen, das parallel zu den Large Language Models steht.
Mit größerer Wahrscheinlichkeit handelt es sich um ein Large Action Model, das wiederum auf der Wahrnehmung durch das Sehen basiert, da die Wahrnehmung durch das Sehen die universellste Sensorinformation der Welt ist. Darüber hinaus fügen wir die Sprache hinzu.
Dies entspricht dem Gesetz der biologischen Evolution. In der Welt gab es zuerst bewegliche Tiere, dann entwickelte sich die Wahrnehmung durch das Sehen und schließlich die hochintelligente Spezies Mensch.
Ich möchte noch hinzufügen, dass ich denke, dass das Modell der Embodied Intelligence sich von den Large Language Models in einem wichtigen Punkt unterscheiden sollte, nämlich dass ich hoffe, dass es ein geschlossenes System sein wird.
Die Large Language Models sind eher offene Systeme. Das heißt, dass die Large Language Models eine Frage beantworten: Man stellt ihnen eine Frage und lässt sie eine Antwort geben. Dazwischen gibt es möglicherweise eine Denkweise, und wenn die Antwort richtig ist, ist die Kommunikation beendet.
Aber die Embodied Intelligence ist anders. Die Embodied Intelligence führt nicht einfach eine Reihe von Überlegungen durch und führt dann eine Aktion aus, sondern bekommt sofort nach der Ausführung einer Aktion eine Rückmeldung aus der Welt und passt dann sofort die nächste Aktion an.
Luo Jianlan (zustimmend): Ich denke, dass die Embodied Intelligence schließlich von einem integrierten System gelöst werden wird, das VLA, Weltmodell und Verstärkungslernen umfasst, anstatt von einem einzelnen Modell.
Hier möchte ich erklären, dass ich vollkommen zustimme, was Zhang Jiaxing gerade sagte, dass das derzeitige VLA möglicherweise nicht das endgültige Paradigma ist, aber ich denke, dass es in Zukunft immer noch eine Rolle für die Wahrnehmung durch das Sehen, die Sprache und die Bewegung spielen wird. Das heißt, der grundlegende Trend von VLA ist richtig, aber es muss nicht so aussehen wie das derzeitige VLA. Deshalb verwende ich weiterhin den Begriff VLA.
Zusätzlich braucht es auch ein Weltmodell, das in der Lage ist, zu reflektieren, vorherzusagen und in einem latenten Raum zu imaginieren. Natürlich braucht das System auch das Verstärkungslernen.
Nachdem diese Elemente zusammengefügt sind und in Kombination mit dem Daten-Drehkreuz aus der realen Welt kann die Embodied Intelligence sich ständig selbst verbessern und lernen.
Wang Zhongyuan (zustimmend): Zunächst ist das Zhiyuan Institut davon überzeugt, dass es im Endzustand ein relativ einheitliches Modell geben muss, um die verschiedenen Probleme in der Embodied Intelligence zu lösen. Dies ist auch ein wichtiger Grund für unsere Strategie im Bereich des multimodalen Weltmodells.
Natürlich ist die erforderliche Datenmenge offensichtlich sehr, sehr groß, und ich denke sogar, dass es möglicherweise nicht in drei oder fünf Jahren vollständig entstehen wird.
Ein besseres Embodied Large Model wird möglicherweise erst erscheinen, nachdem eine große Anzahl von Robotern in realen Szenarien konkrete Probleme gelöst und Daten in der Größenordnung eines „Internets der Embodied Intelligence“ gesammelt haben.
Wang He (zustimmend): Ich denke, dass vom architektonischen Standpunkt aus gesehen der Transformer als eine transmodale Attention-Mechanismus sehr universell ist. Sie werden feststellen, dass er sowohl Texte, Videos als auch Audiodaten verarbeiten kann.
Aber das Problem bei der Embodied Intelligence ist, dass der Mensch Augen, Ohren, Mund, Nase und Zunge hat, also viele Arten von Wahrnehmungen. Obwohl man diese Wahrnehmungen in Token umwandeln und in den Transformer einfügen kann, scheint die Ausgabe nicht ganz richtig zu sein.
Wenn wir diese Probleme langsam lösen, denke ich, dass es in Zukunft ein sehr einheitliches Paradigma geben kann.
Aber ich denke, dass das größte und langfristigste Problem derzeit die Daten sind. Ich stimme vollkommen mit Dr. Wang Zhongyuan überein, dass sowohl Videogenerierungsmodelle als auch Dialogmodelle im Wesentlichen auf riesigen Mengen an Internetdaten basieren.
Das Problem bei der Entwicklung eines Action-First-Modells besteht darin, dass es derzeit zu wenige menschähnliche Roboter auf der Erde gibt. Diese kleine Anzahl reicht nicht aus, um ein Action-First-Architektur und -Modell zu entwickeln.
Meine Meinung ist also, dass wir kurzfristig synthetische Daten verwenden sollten, um diesen Weg zu erkunden. Dies wird schneller sein als die Verwendung von realen Daten. Zuerst nutzen wir diese Methode, um die Fähigkeiten der Embodied Intelligence zu verbessern, und dann kann die Anzahl der Roboter zunehmen, um schließlich ein wirklich leistungsstarkes Large Model zu entwickeln.
Cheng Hao (zustimmend): Da wir uns mehr mit der Bewegungskontrolle von Robotern befassen, denken wir eher aus der Perspektive der Roboterkontrolle über das Embodied-Intelligence-Modell nach.
Wir hoffen, dass es ein Embodied-Modell geben wird, das basierend auf den Anforderungen und der Umgebung ständig die Aktionen der nächsten 100 Frames ausgibt. Stellen Sie sich vor, dass dies eine Animation der Bewegung eines Roboters ist.
Wenn dieses Modell funktionieren würde, würde die Umsetzung der Embodied Intelligence sehr einfach werden.
Warum sind wir so interessiert an dem Weltmodell? Ein wichtiger Grund ist, dass das Weltmodell vorhersagen kann, was als nächstes passieren wird, sowohl was die aktiven Absichten des Roboters als auch die Entwicklung eines Ereignisses angeht.
Zum Beispiel ist das Kochen eine sehr schwierige Aufgabe, aber wir können den Roboter zunächst mit einigen hierarchischen Methoden einführen: Zuerst lassen wir ihn einen Paket abholen oder eine Kiste aufnehmen. Dies sind relativ einfache Aufgaben.
Aber dies ist wirklich eine Herausforderung, und die Umsetzung ist noch weit entfernt. Deshalb denken wir, dass wir zunächst einige hierarchische Methoden anwenden sollten, um einige Agenten zu entwickeln und sie umzusetzen.
Wie Professor Wang He sagte, wird die Anzahl der Roboter sicher zunehmen, sobald die Roboter in die Praxis umgesetzt werden. Denn die Umsetzung schafft Wert, und dann haben alle die Motivation, das Geld und die Absicht, viele Roboter zu bauen und eine große Menge an Daten zu sammeln.
Diese Daten werden dann die Entwicklung des Embodied-Intelligence-Large-Modells unterstützen.
Wang Qian (zustimmend): Ich denke, dass die Erwähnung des Transformers in der Frage etwas irreführend ist. Selbst in den heutigen Sprachmodellen verwenden wir nicht unbedingt die Transformer-Architektur.
Natürlich verstehe ich, dass die Frage darum geht, ob es ein komplettes Grundmodell wie das GPT geben wird. Von dieser Perspektive aus denke ich, dass es so sein wird.
Wir können von den Sprachmodellen zwei sehr wichtige Dinge lernen.
Erstens sind Daten wichtig, aber es geht nicht einfach darum, „je mehr desto besser“. In der Zeit der Sprachmodelle haben wir gesehen, dass die bloße Erhöhung der Datenmenge nicht unbedingt die besten Ergebnisse bringt. Hohe Qualität und Effizienz der Daten sind die entscheidenden Faktoren.
Deshalb verwenden wir zwar auch synthetische Daten, aber derzeit basieren unsere Daten hauptsächlich auf der realen Welt, da wir der Meinung sind,