StartseiteArtikel

Wang Xingxing, der über Modelle spricht

邱晓芬2025-08-13 08:00
Macht Unitree keine "Gehirne"? Arbeiten Unitree-Roboter nicht? Wang Xingxing hat auf diese beiden Missverständnisse geantwortet.

Grafik von "Intelligente Entstehung"

Text | Qiu Xiaofen

Redaktion | Su Jianxun

Als die Branche meinte, Yushu sei ein Unternehmen, das Roboter-Hardware herstellt, brach Yushu Technology-Gründer Wang Xingxing mit einem Statement während der Weltrobotertagung (WRC) diese stereotype Vorstellung.

Bei der WRC widmete Wang Xingxing in seinem Themenvortrag großen Raum den Modellen, Algorithmen und Daten. Viele seiner Ansichten lösten umfassende Diskussionen in der Branche aus -

Beispielsweise äußerte Wang Xingxing offenkundig seine Zweifel an der derzeit beliebten VLA (Vision-Language-Action)-Route für Roboter. Er meinte sogar, "dies sei ein relativ einfältiges Konzept".

Der Grund dafür ist, dass die vorhandenen Datenmengen im Bereich der Embodied AI nicht ausreichen. Wang Xingxing glaubt, dass die Qualität und Menge der Daten hinter dem VLA-Modell, wenn es mit der realen Welt interagiert, nicht ausreichen.

Dies ist bereits ein Konsens, aber viele Embodied-AI-Unternehmen versuchen, die Lücke durch das Sammeln von echten Daten, Simulationsdaten und sogar dem Aufbau von Datenerfassungsfabriken zu schließen.

Wang Xingxing war auch hier nicht verschwiegen - "Die Leute legen zu viel Wert auf die Grunddaten", stattdessen glaubt er, dass der Fokus auf die Modellarchitektur der Embodied Roboter gelegt werden sollte, da die aktuellen Modelle "nicht gut genug und nicht einheitlich genug" sind.

"Das Modellteam von Yushu ist eigentlich nicht klein"

Wang Xingxing betonte in öffentlichen Statements mehrfach, dass das Kernkompetenz von Yushu in der Roboter-Hardware und nicht in der künstlichen Intelligenz liegt. Seine bisherigen Äußerungen ließen es leicht vermuten, dass "Yushu keine Roboter-Intelligenz entwickelt".

Während der WRC sagte Wang Xingxing gegenüber Medien wie "Intelligente Entstehung", Yushu sei zwar vorsichtig bei der Investition in Modelle, aber "die Anzahl der Mitarbeiter im Modellteam ist relativ groß, wenn auch im Vergleich zu großen AI-Unternehmen geringer".

△ Wang Xingxing während eines Medieninterviews, Fotografie von "Intelligente Entstehung"

Dennoch ist er überzeugt, dass die Anzahl der Mitarbeiter, die einem Modell zugewiesen werden, nicht direkt mit den Ergebnissen korreliert - zumindest aus der Erfahrung in der AI-Branche ist bekannt, dass Innovation nicht unbedingt in großen Unternehmen entsteht.

"Es ist nicht so, dass man mit mehr Ressourcen, mehr Geld und mehr Mitarbeitern die weltweit besten und neuesten Technologien entwickeln kann. Ein mittelgroßes Team hat auch die Chance, bessere Modelle zu entwickeln, auch wenn der Druck größer ist", sagte Wang Xingxing gegenüber Medien wie "Intelligente Entstehung".

Bei der Auswahl der Strategie für die Roboter-Intelligenz setzt Wang Xingxing auf mehrere Pferde. Ein weiterer seiner Ansichten, der in der Branche für Aufsehen sorgte, betrifft die derzeit heiß diskutierte "VLA".

Wang Xingxing stimmt nicht mit der Branche überein, die versucht, das noch unvollkommene VLA-Modell mit einer riesigen Datenmenge zu trainieren. Denn für ein leistungsfähigeres Embodied-Modell reichen möglicherweise nur wenige Daten, um es mit höherer Erfolgsrate zu trainieren.

Natürlich verwendet Yushu nicht gänzlich kein VLA. In seinem Vortrag erwähnte Wang Xingxing auch, dass Yushu versucht, das VLA-Modell mit künstlicher Intelligenz zu trainieren.

Bezüglich der Strategie für die Roboter-Intelligenz neigt Yushu jedoch eher zur Video-Route. Letztes Jahr veröffentlichte Google ein Video-getriebenes Weltmodell. Wang Xingxing sagte, dass Yushu bereits letztes Jahr ähnliche Methoden ausprobiert hat.

Konkret besteht die Methode darin, dass ein Videoerzeugungsmodell zunächst ein Video "Roboter räumt Zimmer auf" erzeugt, und dann dieses Video verwendet wird, um den Roboter anzuweisen, die Aufgabe des Zimmeraufräumens zu erfüllen.

△ Screenshot aus Wang Xingxings Vortrag

Wang Xingxing glaubt, dass die Video-Route in Zukunft möglicherweise schneller entwickelt und eher konvergiert als die VLA-Route. Allerdings ist die Video-Route nicht 100 % perfekt. Aufgrund der hohen Anforderungen an die Videoqualität wird viel GPU-Leistung verbraucht.

Aber wie das Rechenleistungsproblem für zukünftige Roboter gelöst werden soll, hat Wang Xingxing bereits eine Vorstellung.

Er glaubt, dass im zukünftigen Roboterbereich kostengünstige, groß angelegte, verteilte Rechenleistungskluster aufgebaut werden müssen. Er meint, wenn es in einer Fabrik in Zukunft 100 Roboter gibt, wird es wahrscheinlich möglich sein, ein verteiltes Servercluster aufzubauen, da Roboter eine geringere Kommunikationsverzögerung benötigen.

Yushu-Roboter nur für Shows, keine Arbeit?

Nach den Robotershows beim diesjährigen Frühlingsfest und den beliebten Roboterkämpfen bei der WAIC und WRC dieses Jahres glaubten viele, die Yushu-Roboter seien nur für Shows und keine Arbeit geeignet.

Dies steht im Kontrast zu den Bemühungen neuer Anbieter, Roboter in Fabriken zu schicken, um Schrauben anzuziehen, Kleidung zu falten und Bettwäsche zu machen.

Wang Xingxing sagte offenkundig, dass es derzeit nicht realistisch sei, Roboter in Fabriken oder Haushalte zu schicken, um Arbeit zu verrichten. Shows seien derzeit die am einfachsten umsetzbare Anwendung für Roboter.

Im Gegenteil, im Inneren von Yushu beschäftigen sich am meisten Mitarbeiter damit, wie die Roboter Arbeit verrichten können.

Er erklärte auch, warum Yushu selten über Szenarien berichtet, in denen Roboter Arbeit verrichten - "Das Verrichten von Arbeit durch Roboter stellt eine große Herausforderung für die künstliche Intelligenz dar, und unsere gegenwärtigen Ergebnisse sind nicht zufriedenstellend."

Was das "Arbeiten" betrifft, äußerte Wang Xingxing seine Meinung - er hofft, dass Roboter nicht nur einzelne Funktionen ausführen sollten, wie das Aufräumen von Kleidung oder das Kochen, sondern vielmehr universell einsetzbar und vielseitig sein sollten, wie beispielsweise das Servieren von Tee in einer Fabrik und das Auftritt in Shows.

Wang Xingxing sagte auch, dass der "ChatGPT-Moment" für Roboter frühestens in 2 - 3 Jahren, spätestens in 3 - 5 Jahren eintreten könne. Er glaubt, dass diese Welle der Embodied AI nicht länger als 10 Jahre dauern wird.

Aber wie würde der "ChatGPT-Moment" für Roboter aussehen?

Wang Xingxing stellte sich vor, dass in einem Raum menschähnliche Roboter frei herumlaufen und auf jeden Befehl eines Menschen reagieren können. Dann sei der "Wendepunkt" für die Roboter erreicht.

Quelle des Titelbildes | Fotografie des Autors

Willkommen, uns zu folgen