Die "Hummer" rüsten Roboter um: Welcher ist der nächste Schritt der Embodied AI?

Wenn der Agent beginnt, die "Körperlichkeit" zu übernehmen, wie verändern sich die zentralen Treiber bei körperlich eingebetteten intelligenten Robotern? Wohin wird die Roboterindustrie durch diese von Agenten ausgelöste Umstrukturierung geführt? Um was wird der neue Wettbewerb kreisen?

Künstliche Intelligenz (KI) dringt immer schneller in die physische Welt vor und beginnt, die bisherige Arbeitsweise von Robotern mit eingebetteter Intelligenz zu verändern.

Bevor OpenClaw im März stark in die Öffentlichkeit trat, hatten einige Entwickler in der Entwickler-Community bereits Agenten in Roboter integriert und die vollständige Kette von der Eingabe eines Befehls bis zur Ausführung abgeschlossen.

Einige Entwickler haben OpenClaw in einen realen Roboter integriert. Über ROS 2 (Robot Operating System Framework) und WebRTC (Echtzeitkommunikationstechnologie) kann ein Benutzer eine Nachricht auf Telegram oder Discord senden, und der Roboter an der anderen Seite kann den Befehl empfangen, Informationen aus Kamera und Sensoren auslesen und in der realen Welt Aktionen wie Greifen und Bewegen ausführen. Dieses Projekt gewann im Februar beim OpenClaw Hackathon (eine App-Entwicklungswettbewerbsveranstaltung für Entwickler) den ersten Platz.

Die tiefgreifende Bedeutung solcher Projekte liegt darin: Roboter sind nicht mehr nur "programmierbare Ausführungsobjekte", sondern beginnen, zu "autonomen Handlungssystemen" zu werden, die von Agenten angetrieben werden.

Tatsächlich hat sich die Erforschung der Integration von Agenten in Roboter bereits in der Branche etabliert, und es gibt bereits eine Reihe konkreter Praxisbeispiele.

Im Ausland versuchen Hersteller wie Google DeepMind, OpenAI und Tesla, die Fähigkeiten großer Modelle in Robotersysteme zu integrieren, damit Roboter natürliche Sprachbefehle verstehen und in realen Umgebungen Aktionen ausführen können. Gleichzeitig setzen Unternehmen wie NVIDIA auch weiterhin die Entwicklung der zugehörigen Plattformen und Tools voran, um die Integration von KI-Fähigkeiten in reale Geräte zu erleichtern.

In China haben Unternehmen wie Unitree Robotics und Daxiao Robotics ebenfalls begonnen, die Kombination von großen Modellen und Robotersystemen zu erforschen und Versuche in realen Szenarien durchzuführen.

Wie verändert sich der zentrale Antriebsfaktor von Robotern mit eingebetteter Intelligenz, wenn Agenten anfangen, ihren "Körper" zu übernehmen? Wohin wird die Roboterindustrie durch diese von Agenten ausgelöste Umstrukturierung geführt? Um was wird der neue Wettbewerb kreisen?

Während des Boao-Asienforums 2026 sagte Wang Xiaogang, Mitbegründer von SenseTime und Vorsitzender von Daxiao Robotics, in einem Nachgespräch: Roboter mit eingebetteter Intelligenz durchlaufen derzeit eine Umstrukturierung des zugrunde liegenden Paradigmas – von einer maschinenzentrierten Forschungs- und Entwicklungsweise hin zu einem "menschenzentrierten" Forschungs- und Entwicklungssystem, das stärker auf Daten aus der realen Welt angewiesen ist. Dies wird nicht nur die technische Route verändern, sondern auch die Wettbewerbslogik der gesamten Branche neu gestalten.

Wang Xiaogang, Mitbegründer von SenseTime und Vorsitzender von Daxiao Robotics

Wang Xiaogang beantwortete nacheinander Schlüsselfragen wie die Paradigmaänderungen, technischen Routen, Koststrukturen und die Branchenlandschaft von Robotern mit eingebetteter Intelligenz in der Ära der Agenten. Im Folgenden sind die wichtigsten Inhalte des Gesprächs:

F: Mit der Entwicklung der KI von einem Hilfsmittel hin zu einem Agenten mit Ausführungskapazitäten, ändert sich der zentrale Antriebsfaktor von Robotern mit eingebetteter Intelligenz. Stimmt das?

Wang Xiaogang: Mit der Eintritts der KI in die Ära der Agenten durchlaufen Roboter mit eingebetteter Intelligenz eine Umstrukturierung des zugrunde liegenden Paradigmas.

Zunächst ist es die Umstrukturierung der Datengewinnungsmethode. Wir haben ein neues Forschungs- und Entwicklungsparadigma vorgeschlagen – die "Umgebungsbasierte Datenerfassung (Ambient Data Collection)".

In der Vergangenheit war die Datenerfassung "maschinenzentriert" und gründete hauptsächlich auf der Bedienung von Geräten und der Erstellung von Szenarien durch Menschen im Labor. Jetzt kehren wir uns einem "menschenzentrierten" Ansatz zu, indem wir eine große Anzahl von realen Benutzern dazu bringen, Sensoren in ihrer realen Produktions- und Lebensumgebung zu tragen, um Daten zu sammeln. Dies führt dazu, dass die Datenquelle von geschlossenen Szenarien in die offene Welt übergeht, und die Skala von der begrenzten Datenerfassung zu einer massiven verteilten Datenerfassung springt.

Diese Veränderung führt direkt zu einem Sprung in der Datenmenge. In den letzten Jahren belief sich die für die Roboterausbildung gesammelte Datenmenge auf etwa 100.000 Stunden. Wir glauben, dass es in den nächsten ein bis zwei Jahren möglich sein wird, die Datenmenge auf tens von Millionen von Stunden zu erhöhen, was einem Anstieg um mehrere hundertfache entspricht. Dies wird nicht nur die Generalisierungsfähigkeit des Modells erheblich verbessern, sondern auch die Nachfrage nach Rechenleistung und Speicherinfrastruktur erhöhen und somit eine neue Basisvariable für die Branche werden.

Zweitens ist es die Verlagerung des Schwerpunkts der Branchenkette. Mit der zunehmenden Wichtigkeit von Daten und Modellen wird der Wettbewerb in der Branche der eingebetteten Intelligenz allmählich von der "Hardwareleistung" hin zu einem umfassenden Wettbewerb um "Modellleistung + Datenleistung" verschoben. Derjenige, der ein größeres und qualitativ hochwertigeres Datensystem aufbauen kann und dessen Modellekosystem größeren Einfluss hat, hat bessere Chancen, die führende Position in der Branche zu erlangen.

Schließlich ist es die Umstrukturierung des Rechenleistungssystems und des Ökosystems. In Zukunft wird die inländische Rechenleistung allmählich zu einer wichtigen Stütze werden, was erfordert, dass die Modelle von Anfang an eine gute Anpassungsfähigkeit haben.

Unter diesen Umständen wird die Zusammenarbeit zwischen Modellen und Chips enger werden, und der Einfluss der Modelle wird auch die Wahl des Rechenleistungsekosystems beeinflussen. Deshalb haben wir uns entschieden, das Weltmodell 3.0 von "Kaiwu" zu open source machen. Einerseits möchten wir die Bildung eines Entwicklerökosystems fördern, andererseits möchten wir die Anpassung und Zusammenarbeit mit dem inländischen Rechenleistungssystem besser realisieren.

Insgesamt bringt die Ära der Agenten nicht nur eine Verbesserung der Fähigkeiten, sondern auch eine systemische Umstrukturierung von Daten, Modellen bis hin zur Rechenleistung. Die Branchenlandschaft der eingebetteten Intelligenz wird deshalb in eine neue Phase der Umstrukturierung eintreten.

F: Welche Schlüsselveränderungen hat die Ära der Agenten im Vergleich zur Vergangenheit in Bezug auf die technische Route gebracht? Wohin entwickelt sich die eingebettete Intelligenz?

Wang Xiaogang: In der Vergangenheit war die vorherrschende Route die "maschinenzentrierte" Datenerfassungsmethode in Kombination mit dem VLA-Modell (Vision-Language-Action). Bei Eingabe eines Befehls gibt das Modell direkt die Bewegungs- oder Strukturparameter des Roboters aus. Im Wesentlichen handelt es sich um eine Abbildung von "Befehl zu Bewegung", aber das Verständnis der realen physischen Welt ist relativ begrenzt.

Jetzt kehren wir uns einer neuen technischen Route zu – "Umgebungsbasierte Datenerfassung + Weltmodell". Ein Weltmodell lernt im Wesentlichen die physikalischen Gesetze und Verhaltenslogiken des menschlichen Umgangs mit der Welt in der realen Umgebung, anstatt nur die Abbildung von Befehl zu Bewegung zu realisieren.

Wenn wir auf dieser Route weiterentwickeln, glauben wir, dass die eingebettete Intelligenz eine "Schlüsselsprungphase" wie ChatGPT erleben kann und den Sprung von der Verfügbarkeit zu einer wirklich skalierbaren Anwendung schaffen kann.

Kurzfristig ist es wahrscheinlicher, dass diese beiden Routen in einer kooperativen Beziehung stehen. Das Weltmodell ist wie ein "Gehirn" und hat eine starke Vorhersage- und Inferenzfähigkeit. Wenn ein Roboter eine komplexe Aufgabe erhält, wird das Weltmodell zuerst die möglichen Szenarien in seinem "Gedächtnis" vorspielen und eine Planung vornehmen. Bei der Ausführung konkreter Aktionen kann es dann das VLA-Modell aufrufen, um die Aktion auszuführen.

Wenn das Ergebnis der Ausführung nicht mit der Vorhersage des Weltmodells übereinstimmt, wird das Weltmodell erneut aufgerufen, um die Planung neu zu erstellen. Diese Aufteilung von "Planung + Ausführung" ist eine kurzfristig realistischere technische Route.

Aber langfristig kann das Weltmodell möglicherweise die Fähigkeiten des VLA-Modells allmählich absorbieren und eine Integration erreichen.

F: Im Zuge dieser Veränderungen wird auch das Datensystem angepasst. Welche Schlüsselunterschiede gibt es bei den Datenquellen für die Ausbildung des "Weltmodells" und des VLA-Modells von Robotern?

Wang Xiaogang: Die Ausbildung eines Weltmodells erfordert normalerweise drei Arten von Daten.

Die erste Art sind Bilder und Textdaten aus dem Internet. Diese Daten enthalten eine große Anzahl von physikalischen Gesetzen und entsprechen dem "Lesen von Büchern", was hilft, dass das Modell physikalische Gesetze und menschliche Verhaltenslogiken lernt. Aber nur diese Art von Daten reicht nicht aus.

Die zweite Art sind Verhaltensdaten von Menschen in der realen Umgebung, einschließlich, wie Menschen arbeiten, leben und mit der physikalischen Umgebung interagieren. Dies ist die Schlüsselgrundlage für die Ausbildung der Fähigkeiten der eingebetteten Intelligenz.

Die dritte Art sind eine kleine Menge an Daten von realen Robotern. Denn auch wenn das Modell die physikalische Welt versteht und weiß, wie Menschen Aufgaben ausführen, muss es am Ende diese Fähigkeiten auf das Parameter-System eines konkreten Roboters abbilden.

Im Vergleich dazu basiert das VLA-Modell hauptsächlich auf Daten von realen Robotern. Der Weg ist direkter, aber es gibt gewisse Einschränkungen bei der Generalisierungsfähigkeit.

F: Auf dem Unterthemenforum "Der Aufstieg und der Sprung von humanoiden Robotern" sprachen einige Teilnehmer auch über den "ChatGPT-Moment" der eingebetteten Intelligenz. Es gibt Meinungsverschiedenheiten über die Branchenaussichten für den Sprung von Robotern. Einige Gäste glauben, dass es in zwei Jahren möglich sein wird, andere denken, dass es zehn Jahre dauern wird. Wie sehen Sie das?

Wang Xiaogang: Die Teilnehmer haben unterschiedliche Vorstellungen und Schwerpunkte beim "ChatGPT-Moment".

Diejenigen, die denken, dass es zehn Jahre dauern wird, beziehen sich eher auf die breite Einführung von Robotern in der realen Welt, wie in Haushalten. Dies kann tatsächlich fünf bis zehn Jahre oder sogar länger dauern. Der von uns genannte "ChatGPT-Moment" betont eher den Durchbruch des "Gehirns" der eingebetteten Intelligenz, d. h. das Modell erreicht einen Sprung in der Allgemeingültigkeit und Generalisierungsfähigkeit, und es tritt eine Phase ähnlich der "Intelligenz-Emergenz" auf, so dass der technische Weg eine hohe Bestimmtheit hat.

Als ChatGPT Ende 2022 erstmals vorgestellt wurde, war es zwar nicht perfekt, aber es hat gezeigt, dass die Fähigkeiten stetig verbessert werden können, wenn die Datenmenge und die Rechenleistung stetig erhöht werden. Der Weg ist klar.

Das Gleiche gilt auch für die Branche der eingebetteten Intelligenz. Wir hoffen nicht auf ein vollkommen ausgereiftes System, sondern darauf, dass der Weg "machbar und skalierbar" ist.

Eine Schlüsselvoraussetzung dafür ist der Durchbruch in der Datenmenge. Erst wenn wir eine große Anzahl von realen menschlichen Verhaltensdaten haben, können wir möglicherweise ein echten universell einsetzbares "Gehirn" für die eingebettete Intelligenz trainieren.

F: Wie wird sich die Koststruktur der eingebetteten Intelligenz unter dem neuen Paradigma der Ära der Agenten ändern, und in welchen Bereichen werden diese Veränderungen hauptsächlich sichtbar sein?

Wang Xiaogang: In der bisherigen Forschungs- und Entwicklungsparadigma wurden Daten und Modelle für verschiedene Roboter separat gesammelt und trainiert, und es war schwierig, diese zwischen verschiedenen Robotern zu nutzen. Die Daten und Modelle, die in diesem Jahr für einen Roboter gesammelt und trainiert wurden, müssen im nächsten Jahr normalerweise von vorne beginnen, wenn der Roboter geändert wird. Diese Methode ist nicht nachhaltig. Gleichzeitig hängt die traditionelle Datenerfassung von der manuellen Bedienung von Maschinen ab, was ineffizient ist und von der realen Produktions- und Lebensumgebung abweicht.

Unter dem neuen Paradigma können Daten durch die umgebungsbasierte Datenerfassung in realen Szenarien natürlich entstehen. Beispielsweise können Reinigungskräfte und Fabrikarbeiter während ihrer täglichen Arbeit gleichzeitig Daten sammeln, ohne zusätzliche Kosten zu verursachen.

Dies wird die Kosten für die Datenerfassung erheblich senken. Gleichzeitig wird die Erhöhung der Datenmenge und der Allgemeingültigkeit auch die Kosten für die Modellausbildung weiter senken.

F: Welche Forschungen hat Daxiao Robotics in Bezug auf Agent-Frameworks wie OpenClaw unternommen? Wie wurde die Sicherheit bei der Einführung in die physische Welt berücksichtigt?

Wang Xiaogang: Einer unserer wichtigen Richtungen ist die Erweiterung von Tools wie OpenClaw aus der digitalen Welt in die physische Welt. Dazu haben wir eine Roboterverwaltungsplattform aufgebaut, um mehrere Roboter einheitlich zu steuern. Gleichzeitig haben wir einen Mechanismus für verstärktes Lernen in die Plattform integriert, damit die Roboter in verschiedenen Szenarien ständig erkunden und Aufgaben ausführen können und den Lernprozess durch Rückmeldung beschleunigen können.

In Bezug auf die Sicherheit spielt die Roboterverwaltungsplattform eine zentrale Rolle bei der "Sicherheitsisolierung". Die Plattform ist mit verschiedenen Benutzeranforderungen verbunden. Wenn diese Anforderungen direkt auf die Roboter angewendet werden, kann dies unvorhergesehene Risiken mit sich bringen. Durch die Roboterverwaltungsplattform als Zwischenschicht können die Benutzeranforderungen von der Ausführungsphase der Roboter getrennt werden, um sicherzustellen, dass nur überprüfte, sichere und zuverlässige Aufgaben ausgeführt werden.

F: Wie wird sich das Geschäftsmodell von Robotern mit eingebetteter Intelligenz ändern, nachdem die Agentenfähigkeiten eingeführt wurden? Wie sehen Sie die Abrechnungsweise?

Wang Xiaogang: Derzeit ist unser Kern-Geschäftsmodell immer noch die Kombination von Hardware und Software, d. h. wir bieten Roboter und deren "Gehirn", um Probleme in bestimmten Szenarien wie im Einzelhandel und im Bürobetrieb zu lösen.

Darüber hinaus haben wir uns entschieden, das Weltmodell zu open source machen, um den Einfluss unserer Technologie zu erweitern und mehr Entwickler einzubeziehen und allmählich Standards in der Branche zu etablieren. Erst nachdem das Modell open source ist, können die Benutzer es tatsächlich nutzen, Probleme melden und das Modell ständig verbessern, um schließlich ein einheitliches Technologieökosystem zu bilden.

F: Welche Unterschiede gibt es zwischen China und den USA in Bezug auf die technische Route und die Branchenentwicklung in der neuen Phase, die von Agenten angetrieben wird? Wo liegen die Chancen für chinesische Hersteller?

Wang Xiaogang: Die technische Route ändert sich sehr schnell. Beispiel

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Die "Hummer" sind dabei, Roboter umzurüsten. Was ist der nächste Schritt der Embodied AI?