StartseiteArtikel

Wang Xingxing macht harte Äußerungen: Die G1 wird von der ganzen Welt gelernt und wird auch in 20 Jahren noch ein Klassiker sein. Er enthüllt erstmals die Hintergründe hinter den Robotern für die Spring Festival Gala.

智东西2026-03-18 08:19
Wenn Roboter 80% der Aufgaben in 80% der unbekannten Szenarien erledigen können, dann ist es der "ChatGPT-Moment".

Zhidongxi berichtete am 17. März. Heute hat Wang Xingxing, Gründer, CEO und CTO von Unitree Technology auf der GTC2026 die jüngsten technologischen Fortschritte von Unitree Technology im Bereich der Embodied Intelligence vorgestellt und seine Ansichten zu den Kernproblemen der Embodied Intelligence bei der Aufgabenverallgemeinerung, der Dateneffizienz und der Skaleneffekt der Reinforcement Learning geäußert.

Wang Xingxing ist der Meinung, dass die Embodied Intelligence zwar in den letzten zwei Jahren zu einem der am meisten beobachteten technologischen Bereiche weltweit geworden ist, aber die Branche immer noch einen deutlichen Weg bis zum „ChatGPT - Moment“ hat. Das größte Problem besteht derzeit darin, dass es noch kein echtes Embodied - Intelligenzmodell gibt, das eine starke Verallgemeinerungsfähigkeit hat und Aufgaben in unbekannten Szenarien stabil ausführen kann.

Er prognostiziert, dass dieser kritische Punkt spätestens in 1 - 2 Jahren erreicht werden kann, im schlimmsten Fall in 2 - 3 Jahren.

Wang Xingxing betont, dass die Bewegungsfähigkeit und die Arbeitsfähigkeit gleichzeitig vorangetrieben werden müssen, aber die erste ist immer noch die Voraussetzung für die zweite. Ohne ausreichend vielfältige Bewegungsausdrücke und ausreichende Stabilität ist es für Roboter schwierig, in Fabriken, Haushalte und andere reale Szenarien einzudringen.

Nach seiner Ansicht ist es nicht mehr nur die Leistung eines einzelnen Produkts oder einer einzelnen Bewegung, die die Branche am Überwinden des kritischen Punkts hindert, sondern die systemische Fähigkeit auf Modell Ebene. Wang Xingxing hat vorgeschlagen, dass die Branche mindestens drei Dinge lösen muss, um den „ChatGPT - Moment“ der Embodied Intelligence zu überwinden:

Erstens die Fähigkeit des Modells, Aufgaben und Bewegungen auszudrücken, verbessern, um die Verallgemeinerungsengpässe zu überwinden; zweitens die Effizienz der Nutzung von vielfältigen Daten wie Videos, Simulationen und echten Maschinen erhöhen, um die Abhängigkeit von der Erfassung von großen Mengen an echten Maschinendaten zu verringern; drittens die Skaleneffekte der Reinforcement Learning so gestalten, dass sie wiederverwendbar und akkumulierbar sind.

Bezüglich der technologischen Richtung setzt er auf Weltmodelle und Videogenerierungsmodelle. Er ist der Meinung, dass diese Richtung ein höheres Potenzial hat und es einfacher ist, die riesigen Mengen an Videound Textdaten im Internet zu nutzen.

Wang Xingxing meint, dass wenn Roboter in Zukunft in 80 % der unbekannten Szenarien 80 % der Aufgaben nur durch Sprach - oder Textbefehle erledigen können, dann hat die Embodied Intelligence ihren echten „ChatGPT - Moment“ erreicht.

Im Folgenden ist die Zusammenfassung des Vortrags von Wang Xingxing (Zhidongxi hat im Rahmen der Wahrung der ursprünglichen Bedeutung einige Ergänzungen, Löschungen und Änderungen vorgenommen):

01.

In zwanzig Jahren wird der G1 immer noch ein klassisches Produkt sein

Unitree wurde 2016 gegründet. Noch früher, ungefähr ab 2013, habe ich mit der Entwicklung von Vierbeinrobotern begonnen; bei den Humanoiden Robotern war ich noch früher aktiv. 2009, als ich noch Student war, habe ich einen kleinen Humanoiden Roboter gebaut.

In den letzten Jahren hat unser Unternehmen mehrere Modelle von Humanoiden Robotern entwickelt. Eines der derzeit klassischen Modelle ist der kleine Humanoidroboter G1, der im Mai 2024 vorgestellt wurde. In gewisser Weise ist er zu einem weltweit sehr bekannten Modell geworden. Viele Benutzer in- und ausländischer Herkunft nutzen ihn, und sogar viele andere Unternehmen studieren und nehmen sich von seinem Design Inspiration.

Das größte Merkmal dieses Roboters ist, dass er klein, kompakt und kostengünstig ist. Er ist etwa 1,3 Meter groß und wiegt einige zehn Kilogramm. Die Beine und Hände haben eine hohe Bewegungsfreiheit, und die Sensorausstattung ist relativ vollständig. Die Kompaktheit des gesamten Roboters ist sehr hoch. Daher ist seine Benutzerfreundlichkeit und Ästhetik weltweit sehr gut. Selbst in zehn oder zwanzig Jahren wird dieser Roboter noch ein klassisches Produkt sein.

Letztes Jahr haben wir auch einen mittelgroßen industriellen Roboterhund vorgestellt, der in allen Leistungskategorien sehr stark ist und Aufgaben wie die Inspektion in- und außerhalb von Gebäuden übernehmen kann.

Zusätzlich haben wir einen großen Humanoidroboter H1 mit einer Höhe von 1,8 Metern vorgestellt. Das Gesamtproportionen dieses Roboters sind besser, er sieht eher wie ein Mensch aus und ist auch sehr beweglich. Natürlich ist er größer und eignet sich derzeit eher für körperliche Arbeiten, wie in Fabriken und auf Landbetrieben.

Vor kurzem haben wir auch einen kleinen Roboterhund As2 vorgestellt. Er hat eine grundlegende Wasserdichtigkeit und eine starke Tragfähigkeit, kann mehrere zehn Kilogramm tragen und hat eine lange Akkulaufzeit. Gemäß den technischen Daten gehört dieses Produkt derzeit weltweit zu den besten. Wir hoffen, dass er in Zukunft Menschen bei der Durchführung von praktischen Aufgaben unterstützen kann. Beispielsweise müssen bei Wanderungen oder Reisen die Menschen nicht mehr ihre Rucksäcke selbst tragen, was das Ganze viel bequemer macht.

Der Grund, warum wir weiterhin größere Humanoidroboter entwickeln, ist, dass kleine Roboter in Bezug auf Stützfähigkeit, Tragfähigkeit und Armkraft natürlich begrenzt sind.

Wenn die Roboter wirklich in Fabriken und Haushalte eindringen und insbesondere körperliche Arbeiten ausführen sollen, müssen ihre Größe, Kraft und Struktur noch verbessert werden. Aus diesem Grund erfordern größere Roboter auch höhere Sicherheitsstandards.

Derzeit können diese großen Humanoidroboter bereits einige relativ komplexe Ingenieuraufgaben lernen und ausführen. Aber da sie schwerer und stärker sind, muss beim Nahkontakt ein ausreichender Sicherheitsabstand eingehalten werden. Mindestens zwei bis drei Meter sind sicherer, da sonst eine Berührung mit Arm oder Bein Verletzungen verursachen kann.

02.

Für die Massenanwendung von Robotern muss die Stabilität ausreichend gut sein

In Bezug auf die Bewegungsleistung haben wir in den letzten Jahren viel Arbeit geleistet.

Unser Humanoidroboter H1 hat bereits viele gute Ergebnisse in Bezug auf die Bewegungsfähigkeit erzielt. Beispielsweise kann er 1.500 Meter in etwa sechs Minuten laufen, was für viele Menschen zu schnell ist. Natürlich muss die Sprintleistung noch verbessert werden.

Abgesehen von der Hardware haben wir auch viele Software-Upgrades durchgeführt. Dazu gehören die automatische Steuerung, die Stöße widerstehende Fähigkeit bei beliebigen Bewegungen und die Fähigkeit, sich selbst aufzurichten, wenn er umfällt. Diese Technologien sind sehr nützlich.

Wir sind überzeugt, dass für die Massenanwendung von Robotern in Zukunft die Stabilität ausreichend gut sein muss. Selbst in extremen Situationen muss er in der Lage sein, sich selbst zu retten und aufzurichten.

Derzeit passt der Algorithmus unserer Roboter gut auf die Hardware, sodass die Verallgemeinerungsleistung auf verschiedenen Modellen relativ gut ist. Theoretisch können die Roboter bereits viele Bewegungen ausführen, die auch Menschen ausführen können.

Natürlich treten bei einigen besonders komplexen Bewegungen noch Probleme auf. Beispielsweise können große seitliche Kräfte oder rutschige Böden Herausforderungen darstellen. Im Allgemeinen möchten wir jedoch die Bewegungsfähigkeit ständig verbessern.

Letztes Jahr haben wir viele Upgrades am RL-Steuerungsmodell vorgenommen, einschließlich Basislaufen, Tanzbewegungen, Kampfkunstbewegungen sowie die schnelle Wiederherstellung und stabile Steuerung des Roboters nach Störungen bei beliebigen Bewegungen. Im zweiten Halbjahr des letzten Jahres haben wir auch eine relativ vollständige Ganzkörper-Fernsteuerung implementiert.

Ich denke, dass bei der ganzkörperlichen tiefen Reinforcement Learning viele Kernprobleme bereits grundlegend gelöst sind und es jetzt darum geht, diese zu vervollständigen.

03.

Hinter der Springfestivalgalerie steht nicht die Training einzelner Bewegungen, sondern die gesamte Systemleistung

Im Februar dieses Jahres haben wir an einem Programm der Springfestivalgalerie teilgenommen, das sowohl in- als auch ausländisch sehr positive Rückmeldungen erhalten hat. Um dieses Programm zu gestalten, habe ich fast alle traditionellen chinesischen Kampfkunstbewegungen, die ich finden konnte, durchgesehen. Anfangs habe ich ungefähr hundert Bewegungen gefunden, dann habe ich die ausgesucht, die am besten aussehen und für Roboter am besten geeignet sind, und schließlich sind noch einige Dutzend übrig geblieben, darunter klassische Bewegungen wie Betrunken-Kampfkunst, Nunchaku-Spinne, Stabbewegungen und Schwertbewegungen.

Zusätzlich haben wir auch einige schwierige Bewegungen versucht. Beispielsweise Bewegungen wie auf der Stelle fortlaufende Salti, die einen sehr hohen Belastungsdruck auf die Motoren und Beine ausüben. Oder auch die Bewegung auf die Wand zu klettern, bei der wir uns auch für höhere Schwierigkeitsgrade entschieden haben und nicht nur einen Schritt, sondern auch höhere und visuell beeindruckendere Bewegungen versucht haben.

Beim Stabbewegungsabschnitt des Programms haben wir auch eine dexter Hand verwendet, sodass der Roboter den Stab greifen kann. Darüber hinaus haben auch größere Humanoidroboter in der Nebenbühne besondere Gestalten und Präsentationen gezeigt, was insgesamt sehr interessant und sinnvoll war.

Im Programm haben wir den Roboter etwas modifiziert.

Beispielsweise haben wir die Kopf-Laser-Lidar-Sensoren durch 128-Linien-3D-Laser-Lidar-Sensoren ersetzt und die Ausrichtung angepasst, damit er mehr Informationen über die Umgebung erhalten kann. Wenn der Laser-Lidar-Sensor nur nach unten oder zur Seite schaut, kann er in dichten Szenarien mit vielen Menschen und Maschinen leicht verdeckt werden.

Außerdem haben wir ein vorgebildetes Ganzkörper-RL-Modell verwendet, anstatt ein einzelnes RL-Modell zu trainieren. Der Vorteil davon ist, dass es eine stärkere Komplexfähigkeit hat, das Training und die Feineinstellung einfacher sind und es auch für schnelle Bewegungen, komplexe Bewegungs-Kombinationen und die Kompatibilität zwischen verschiedenen Hardware-Komponenten besser geeignet ist.

Einfach ausgedrückt, können wir theoretisch den Roboter beim Ausführen komplexer Bewegungen sofort anhalten, ihn stabil machen und dann sofort in die nächste Bewegung wechseln. Mit früheren Technologien war es bei vielen Einzellbewegungs-Strategien nicht möglich, die Bewegung mittendrin anzuhalten und zu wechseln, da der Roboter sonst umfallen würde. Jetzt können wir ihn stabil anhalten und die Bewegung wechseln, was für die Feineinstellung und die Kombination von verschiedenen komplexen Bewegungen sehr hilfreich ist.

Außerdem haben wir ein Ganzkörper-Zustands-Wahrnehmungsmodell entwickelt, damit der Roboter während der Bewegung die Wahrnehmung und die Entscheidungsfindung besser durchführen kann; gleichzeitig haben wir auch ein Gruppen-Steuerungssystem entwickelt, das es ermöglicht, Dutzende oder sogar Hunderte von Robotern zu komplexen Bewegungen und Formationen zu bringen.

04.

Bewegungsfähigkeit und Arbeitsfähigkeit müssen gleichzeitig vorangetrieben werden

Wir sind immer der Meinung gewesen, dass sowohl die Bewegungsfähigkeit als auch die Arbeitsfähigkeit sehr wichtig sind und gleichzeitig vorangetrieben werden müssen. In gewisser Weise ist die Bewegungsfähigkeit noch die Voraussetzung für die Arbeitsfähigkeit.

Damit ein Roboter arbeiten kann, müssen einige Bedingungen erfüllt sein. Erstens muss seine Bewegungsausdrucksweise ausreichend vielfältig sein, sodass er verschiedene Bewegungen ausführen kann; zweitens muss er bei diesen Bewegungen ausreichend stabil sein. Wenn er diese beiden Punkte nicht erreichen kann, ist es schwierig, von echter Arbeitsfähigkeit zu sprechen.

Das ist ähnlich wie bei Tieren. Beispielsweise haben Ameisen, Mäuse und Hunde möglicherweise nicht so entwickelte Gehirne, aber ihre Bewegungsfähigkeit ist dennoch sehr stark. Deshalb denke ich, dass die Bewegungsintelligenz in gewissem Maße eher leicht zu erreichen ist und eine notwendige Voraussetzung ist. Zuerst muss die physische Fähigkeit verbessert werden, bevor das „Gehirn“ und das „Arbeitsmodell“ verbessert werden können. Dies ist ein notwendiger Weg.

In den letzten Jahren haben wir auch ständig daran gearbeitet, dass Roboter arbeiten. Aber objektiv gesehen ist dies weltweit immer noch sehr schwierig.

Wir hoffen immer, dass Roboter in Zukunft Roboter herstellen können. Deshalb haben wir vor kurzem auch entsprechende Modelle entwickelt und versucht, sie auf Humanoidroboter anzuwenden, damit sie in Fabriken gehen und Humanoidroboter herstellen können. Ich finde dies sehr interessant und sinnvoll.

Natürlich ist die Erfolgsrate bei besonders komplexen Arbeitsplätzen, wie der Montage von Gelenkmodulen, aufgrund der vielen Teile und komplexen Arbeitsgänge noch nicht besonders hoch. Aber wenn es darum geht, einzelne Teile oder relativ einfache Bewegungen mit ein oder zwei Teilen zu greifen, kann die Erfolgsrate nach dem Training nahezu 100 % betragen.

Weltweit gesehen ist die komplexe Bedienung mit mehreren Arbeitsgängen, langen Aufgabenketten und kleinen Teilen immer noch eine große Herausforderung.

Außerdem war eine Technologie, die wir im zweiten Halbjahr des letzten Jahres gut umgesetzt haben, die Ganzkörper-Fernsteuerung. Diese Fähigkeit ist sehr praktisch, insbesondere für die Erfassung von großen Mengen an Daten.

Natürlich gibt es weltweit noch einige gemeinsame Probleme mit dieser Fernsteuerungslösung. Beispielsweise gibt es noch Unterschiede in der Bewegungsausführung im Vergleich zu Menschen, wenn der Roboter tatsächlich bewegt wird; bei einigen komplexen Bewegungen zittern die Füße und der Körper, was die Bedienungserfahrung beeinträchtigt. Diese Punkte müssen noch verbessert werden.

Was die Stabilität betrifft, ist diese Lösung jedoch bereits relativ gut. Die von uns öffentlich dargestellten Videos sind nicht beschleunigt, sondern in realer Geschwindigkeit.

05.

Um den „ChatGPT - Moment“ zu überwinden, müssen derzeit mindestens drei Schlüsselprobleme gelöst werden

Wenn wir darüber diskutieren, wie die Embodied Intelligence den „ChatGPT - Moment“ überwinden kann, denke ich, dass es mindestens einige Schlüsselprobleme gibt.

Erstens, die F