Der beste Konsens: Es gibt keinen Konsens über Embodied Intelligence.

Es wird erst lebhaft, wenn es keine Einigkeit gibt.

Zu Beginn der Technologieentwicklung versuchten immer wieder Menschen, den einzig richtigen Weg zu finden und hofften, durch eine einmalige Wetteinsatz die Unsicherheit zu durchbrechen. Doch die Komplexität der Embodied Intelligence (körpergebundene Intelligenz) warnt die Branche, dass Embodied Intelligence nicht aus einem einzigen Pfad erwächst, sondern aus unzähligen Fehlversuchen, Konflikten und Kompromissen „geschulpt“ wird. Unvollkommene Modelle, unvollständige Daten und unvereinheitlichte Architekturen klingen wie Mängel, sind aber genau der wahre Lebensquell der Embodied Intelligence.

Es war zu erwarten, dass die Embodied Intelligence Ende 2025 weiterhin in hohem Tempo voranschreitet.

Noch weniger überraschend ist, dass es bei der Embodied Intelligence immer noch keinen Konsens gibt.

Bei dem Round-Table-Forum „Zhi Yuan Embodied Open Day 2025“ führten die besten Embodied-Experten in China eine ehrliche Debatte mit verschiedenen Meinungen durch. Weder bei der Auswahl der Modellarchitektur noch bei der Nutzung von Daten konnte ein einheitlicher Entwicklungspfad gefunden werden. Viele Menschen fühlten sich bedauernd über die fehlende Einigkeit bei der Embodied Intelligence.

Die Embodied Research Society meint jedoch, dass die fehlende Einigkeit auch bedeutet, dass die Embodied Intelligence weiterhin erwartungswert ist und die Technologie noch überraschende Fortschritte machen wird. Nachdem es einen klaren Trend gibt, wird es eher langweilig. Wenn wir nicht länger auf „Sicherheit“ setzen, können wir einige Trends erkennen. Vielleicht ist die fehlende Einigkeit selbst ein Konsens.

Bildquelle: Zhi Yuan Institute

Aus industrieller Sicht hat das Fehlen eines Konsenses drei positive Aspekte:

Erstens bricht die fehlende Einigkeit im Wesentlichen die monopolistische Macht einer einzigen Technologie, und vermeidet, dass die Branche in die Innovationsfalle der „Pfadabhängigkeit“ gerät. Im Bereich der Embodied Intelligence gibt es von der technologischen Disparität zwischen „Hierarchische Architektur vs. End-to-End“ bis zur Implementierungswahl zwischen „Allgemeine humanoide Roboter vs. Szenariospezifische Embodied Intelligence“ verschiedene Meinungen. Der Zustand der fehlenden Einigkeit bietet Teams mit unterschiedlichen technologischen Konzepten und akademischen Hintergründen gleichberechtigte Möglichkeiten, Fehler zu machen.

Zweitens ist der Konsens in einer reifen Branche oft mit hohen Einstiegshürden verbunden. Der Zustand der fehlenden Einigkeit in der Embodied Intelligence bietet kleinen und mittleren Unternehmen, Start-up-Teams und sogar Unternehmen aus anderen Branchen die Möglichkeit, die Spitze zu holen. Neue Teilnehmer können sich mit ihren Differenzierungsvorteilen in den Markt einfügen, ohne sich an bestehende technologische Standards oder Geschäftsregeln zu halten.

Drittens ist die Embodied Intelligence ein interdisziplinärer Bereich, dessen technologische Grundlage sich noch schnell weiterentwickelt. Ein zu frühes Erreichen eines Konsenses könnte die technologischen Pfade festlegen und die Branche daran hindern, in höhere Dimensionen vorzudringen. Der Kernwert des Zustands der fehlenden Einigkeit besteht darin, einen „elastischen Raum“ für die technologische Weiterentwicklung vorzusehen.

Beim Round-Table-Forum „Zhi Yuan Embodied Open Day“ wurde viel über die fehlende Einigkeit gesprochen, was auch auf mehr Möglichkeiten hinweist. Basierend auf den Antworten der Gäste hat die Embodied Research Society fünf Signale der Embodied Intelligence erkannt. Die zukünftige Entwicklungsrichtung könnte sich in diesen Signalen verbergen.

Das Modell ist noch nicht gut genug, einige wollen einen neuen Ansatz probieren

Signal 1: Das Weltmodell kann vorerst nicht alle Aufgaben bewältigen

Bei der Diskussion über Modelle in der Embodied Intelligence kann man nicht um das „Weltmodell“ herumkommen, das derzeit sehr populär ist.

Sein Kernwert liegt in der „Vorhersage“. Es ermöglicht es den Robotern, wie Menschen, die nächste Veränderung anhand des aktuellen Zustands zu prognostizieren und dann die Aktionen zu planen. Dies wurde von den Gästen des Round-Tables allgemein anerkannt. Wang He, Assistentprofessor an der Peking-Universität und Gründer von Galaxy General, führte das Beispiel der Roboterkontrolle an. Er sagte, dass sowohl beim Gehen, Tanzen von humanoiden Robotern als auch bei der feinen Manipulation von Greifhanden die zugrunde liegende Steuerungslogik die Fähigkeit zur Vorhersage der physikalischen Interaktion erfordert, und das Weltmodell kann genau diese Unterstützung bieten. Aber damit das Weltmodell wirklich für Roboter nutzbar ist, müssen seine Trainingsdaten mehr Daten über die Roboter selbst enthalten.

Aber die Schwächen des Weltmodells sind ebenfalls offensichtlich. Es ist schwierig, dass es allein die „Allheilmethode“ für die Embodied Intelligence werden kann. Wang He betonte, dass viele aktuelle Weltmodelle auf menschlichen Verhaltensvideos trainiert werden. Da die Körperstruktur der Roboter (z. B. Radfahrgestell, mehrachsige Roboterarme) sich stark von der der Menschen unterscheidet, sind diese Daten für die praktische Manipulation der Roboter nur begrenzt hilfreich. Cheng Hao, Gründer und CEO von Acceleration Evolution, sagte auch, dass in realen Szenarien wie Kochen und komplexen Montagen die Vorhersagegenauigkeit des Weltmodells immer noch nicht ausreicht. Man muss zunächst einfache Aufgaben mit hierarchischen Modellen lösen und dann schrittweise aktualisieren.

Signal 2: Man muss neue Modelle entwickeln

Da die bestehenden Modelle die Anforderungen nicht erfüllen können, ist es für viele Unternehmen ein Konsens, „spezifische Modelle für die Embodied Intelligence“ zu entwickeln.

Zhao Xing, Assistentprofessor an der School of Interdisciplinary Information at Tsinghua University und CTO von Xinghai Map, sagte, dass die Embodied Intelligence ein „Large Action Model“ parallel zu den großen Sprachmodellen benötigt. Solche Modelle sollten auf „Aktionen“ statt auf Sprache basieren. Er erklärte, dass die Evolution der menschlichen Intelligenz „erst Aktionen, dann Vision und schließlich Sprache“ folgt. Auch Roboter sollten einer ähnlichen Logik folgen, wenn sie sich an die physische Welt anpassen. Beispielsweise beim Autofahren beobachten Menschen die Verkehrssituation mit ihren Augen und steuern das Lenkrad mit ihren Händen. Sprache spielt keine zentrale Rolle bei der Kernoperation. Das Embodied-Modell sollte zunächst die geschlossene Schleife zwischen „Vision und Aktion“ herstellen.

Wang Qian, Gründer und CEO von Independent Variable, hatte eine noch konkretere Meinung. Er meinte, dass die Embodied Intelligence ein „Grundmodell für die physische Welt“ benötigt, das sowohl die Aktionen der Roboter steuern als auch die physikalischen Gesetze vorhersagen kann. Die multimodalen Modelle in der virtuellen Welt werden mit Texten und Bildern trainiert. Aber die feinen Prozesse wie Reibung, Kollision und Kraftrückmeldung in der physischen Welt können nicht genau mit Sprache beschrieben werden. Wenn ein Roboter ein Ei greift, muss er die Empfindlichkeit der Eierschale wahrnehmen und die Greifkraft anpassen. Das Verständnis dieser physikalischen Eigenschaften muss auf einem speziell für die physische Welt trainierten Modell basieren.

Signal 3: Man muss die Grundarchitektur neu entwickeln

In den letzten Jahren hat die Transformer-Architektur dank ihrer Fähigkeit zur multimodalen Verarbeitung das Aufkommen von großen Sprachmodellen wie ChatGPT ermöglicht. Aber im Bereich der Embodied Intelligence wird ihre Eignung in Frage gestellt. Zhang Jiaxing, Chefwissenschaftler für KI bei der China Merchants Group, ist ein Vertreter dieser Meinung. Er sagte direkt: „Die Embodied Intelligence kann nicht den alten Weg von LLM zu VLM gehen.“

In seiner Ansicht ist die Transformer-Architektur sprachzentriert und bildet andere Modalitäten wie Vision und Aktion auf Sprache ab. Dies widerspricht der Logik der physischen Welt – wenn Menschen Aktionen ausführen, wird die Muskelbewegung direkt durch die visuelle Wahrnehmung gesteuert, ohne dass Sprache als „Übersetzer“ erforderlich ist. Er gab bekannt, dass Spitzenteams in Silicon Valley neue Architekturen wie „Vision First“ oder „Vision Action First“ erforschen, um die direkte Interaktion zwischen Vision und Aktion zu ermöglichen und die Verluste durch die sprachliche Vermittlung zu reduzieren.

Wang He fügte hinzu, dass der Transformer als ein multimodaler Attention-Mechanismus sehr universell ist. Man kann beispielsweise Texte, Videos und Audios in den Transformer geben. Aber „das Problem bei der Embodied Intelligence heute ist, dass wir Menschen Augen, Ohren, Mund, Nase und Zunge haben, also viele „Empfindungen“. Obwohl man diese „Empfindungen“ von der Perspektive des Attention-Mechanismus tokenisieren und in den Transformer geben kann, ist die Ausgabe nicht so ideal. Die grundlegende Herausforderung liegt in den Daten und dem entsprechenden Lernparadigma.“

Wang He schlug vor, dass kurzfristig die Simulation und synthetische Daten die Schlüsselmittel sind, um die Forschungsgeschwindigkeit zu erhöhen. Langfristig muss die Anzahl der humanoiden Roboter in der realen Welt kontinuierlich und schnell wachsen. Nur wenn die „Roboterbevölkerung“ groß genug ist und ihre Fähigkeiten sich verbessern, kann ein wirklich starkes Embodied-Modell entstehen.

Diese Unpassung der Grundarchitektur lässt die Branche erkennen, dass man möglicherweise die Architektur von Grund auf neu entwickeln muss, anstatt an bestehenden Rahmenwerken herumzudoktern, um einen Durchbruch in der Embodied Intelligence zu erzielen.

Daten sind immer noch ein Engpass, und der Bedarf wächst

Signal 4: Es gibt keine perfekten Daten, nur passende Auswahl

„Daten sind der Treibstoff für die Embodied Intelligence.“ Dies war ein Konsens auf dem Round-Table-Forum. Aber es gab keine einheitliche Antwort auf die Frage, „Welche Daten man verwenden soll“. Da verschiedene Datentypen ihre Vor- und Nachteile haben, wenden die Unternehmen allgemein die Strategie der „Mehrquellenfusion und bedarfsorientierten Auswahl“ an und passen die besten Datenquellen an die Aufgabenstellung an. Echtzeitdaten von realen Robotern sind die „authentischsten“ Wahl, da sie direkt die Interaktionsgesetze der realen physischen Welt widerspiegeln. Daher sind sie die erste Wahl für feine Manipulationsszenarien. Das Team von Xinghai Map, zu dem Zhao Xing gehört, sammelt weiterhin Daten in realen Szenarien. Sie betrachten die Authentizität und Qualität als den Ausgangspunkt für die Datenerfassung von realen Robotern. Luo Jianlan, Partner und Chefwissenschaftler von ZHIYUAN ROBOTICS, betonte auch, dass ZHIYUAN ROBOTICS weiterhin echte Daten sammelt und bei der Datenerfassung auf reale Szenarien setzt, anstatt nur auf Datenerfassungswerke. Sie suchen nach einem Weg, wie Roboter selbständig Daten generieren und einen Datenkreislauf aufbauen können. Simulationsdaten werden hingegen aufgrund ihrer Vorteile von „niedrigen Kosten und Skalierbarkeit“ zur Hauptquelle für die Grundsteuerungstraining. Wang He meinte, dass in der verstärkten Lernweise viele extreme Szenarien wie das Stürzen von Robotern oder die Überlastung von Roboterarmen schwerlich auf realen Robotern wiederholt getestet werden können. Die Simulatoren können jedoch schnell eine große Menge ähnlicher Daten generieren, um das Modell zu helfen, Strategien für solche Situationen zu lernen. In seiner Ansicht ist der Simulator keine Verneinung der realen Welt. Er kann den Embodied-Unternehmen eine gute Basissteuerung geben, damit man den Datenkreislauf in der realen Welt in Gang bringen kann.

Das Team von Acceleration Evolution unter der Leitung von Cheng Hao wendet eine ähnliche Strategie an. Sie lassen die Roboter zunächst die Grundsteuerungsfähigkeiten mit Simulationsdaten erlernen und dann mit Echtzeitdaten an reale Szenarien anpassen. „Unser Ziel bei der Datenerfassung mit Simulationsdaten ist, dass die Roboter anschließend mehr reale Daten erhalten können. Erst mit realen Daten kann die Gesamtfähigkeit weiter verbessert werden.“ In Cheng Haos Ansicht ist dies wahrscheinlich ein spiralförmiger Aufstiegsprozess.

Video-Daten werden zu einer wichtigen Ergänzung für das Training von Basis-Modellen. Wang Zhongyuan, Direktor des Zhi Yuan Institute, meinte, dass die Logik des „Trainings von Basis-Modellen mit Video-Daten“ ähnlich der ist, wie Kinder die Welt kennenlernen, indem sie Handys benutzen. Sie lernen zunächst die Welt durch Videos kennen und verbessern dann ihre Fähigkeiten durch reale Interaktionen. Diese Video-Daten enthalten Informationen in mehreren Dimensionen wie Zeitraum, Kausalität und Absicht und können in großem Maßstab erfasst werden. Sie sind die „optimalste Kompromisslösung“ für die Zeit, in der es noch keine massiven Echtzeitdaten von realen Robotern gibt. Aber als die Embodied Research Society fragte, wie man die feinen Daten über Haptik und Kraftsteuerung aus Videos lernen kann, räumte Wang Zhongyuan ein, dass in Videos tatsächlich Informationen über Kraftrückmeldung und Haptik fehlen. Dies beeinträchtigt jedoch nicht ihren Wert. Im Labor für Embodied Intelligence des Zhi Yuan Institute gibt es auch Geräte zur Erfassung von Daten mit Kraftrückmeldung. Video-Daten werden hauptsächlich zur „Grundbildung“ verwendet und müssen in Kombination mit anderen Daten weiter optimiert und angepasst werden.

Signal 5: Die Embodied-Unternehmen brauchen Daten in Bezug auf „Menge“, „Qualität“ und „Art“

Mit der Einübung der Embodied Intelligence in komplexe Szenarien steigt der Bedarf der Branche an Daten ständig. Es wird nicht nur an der „Menge“ gefordert, sondern auch an der „Qualität“ und der „Vielfalt“ der Daten. Der „Datenhunger“ wird immer größer.

Zunächst ist es der Bedarf an der „Menge“. Daten im „Internet-Maßstab“ werden von der gesamten Branche erwartet. Zhao Xing meinte, dass die Skalierbarkeit der Daten die Weiterentwicklung der Modelle und die Realisierung der Intelligenz antreiben kann. Wang Zhongyuan sagte auch: „Bessere große Embodied-Modelle werden wahrscheinlich erst erscheinen, nachdem eine große Anzahl von Robotern in realen Szenarien konkrete Probleme lösen und Daten im Maßstab des „Embodied Intelligence Internets“ gesammelt haben.“ Mit anderen Worten, ohne genügend Daten ist das Modell wie ein Kind, das nicht genug gefüttert wurde. Es kann nicht schnell laufen und nicht stark werden.

Als die Branche sich freute, dass der Datensatz von 270.000 Stunden Echtzeitdaten für Generalist möglicherweise die Skalierungsregeln erreicht hat, räumte Wang Zhongyuan gegenüber der Embodied Research Society ein: „Daten von hunderttausenden von Stunden können noch nicht als massiv bezeichnet werden. Wir sind noch weit von der ChatGPT-Zeit entfernt.“