StartseiteArtikel

Die "Vier aus Berkeley" traten selten gemeinsam auf der Bühne auf. Wir haben das luxuriöseste Embodied-Forum der WAIC zusammengestellt.

富充2025-08-04 12:50
Die Vorträge von Chen Jianyu (Gründer von Xingdong Jiyuan), Gao Yang (Mitgründer von Qianxun Intelligence), Wu Yi (Chefwissenschaftler des Labors für verstärktes Lernen der Ant Group) und Xu Huazhe (Mitgründer von Xinghaitu) repräsentieren im Wesentlichen die fortschrittlichsten Ergebnisse auf dem Gebiet der Embodied Intelligence in China.

Text | Fu Chong

Editor | Su Jianxun

Während der Weltkonferenz für Künstliche Intelligenz (WAIC) 2025 war das aufregendste Forum im Bereich Embodied Intelligence (eingebettete Intelligenz) zweifellos die Veranstaltung "Forum für interdisziplinäre Wissenschaften der Künstlichen Intelligenz" des Shanghai Qi Zhi Institutes.

Bei diesem Forum kamen erstmals die "Berkeley Vier" im Bereich Embodied Intelligence in China zusammen - Wu Yi, Gao Yang, Xu Huazhe und Chen Jianyu. Alle vier Wissenschaftler haben von der Universität Kalifornien, Berkeley abgeschlossen und arbeiten derzeit an Projekten im Bereich Embodied Robotics (eingebettete Robotik).

Chen Jianyu gründete Xingdong Jiyuan. Gao Yang ist Mitbegründer von Qianxun Intelligence, und Xu Huazhe ist Mitbegründer von Xinghaitu. Wu Yi ist Chefwissenschaftler des Reinforcement Learning Labs der Ant Group.

(Klicken Sie auf "Xingdong Jiyuan" und "Qianxun Intelligence", um unsere früheren Berichte zu lesen.)

Da diese vier Wissenschaftler selten gemeinsam auftreten, befassten sich ihre Vorträge natürlich mit den zentralen Fragen im Bereich Embodied Intelligence:

Das Problem der Embodied Intelligence - "Datenerfassung". Wie kann dieses Problem gelöst werden?

Wie können Roboter ihre Fähigkeiten vom Gehirn bis zum Körper verbessern, wenn sie von einfachen Aufgaben (nehmen, legen) zu komplexen Aufgaben (Zimmer aufräumen) übergehen?

Was sind die nicht konsensfähigen Methoden in dem bereits etablierten "VLA - Algorithmus"?

Außer ihrer Rolle als Unternehmer oder Wissenschaftler großer Unternehmen sind Wu Yi, Gao Yang, Xu Huazhe und Chen Jianyu alle Principal Investigators (PI) des Shanghai Qi Zhi Institutes.

Yao Qizhi ist Turing - Preis - Gewinner und Direktor des Institute for Interdisciplinary Information Sciences der Tsinghua Universität. Im Jahr 2005 gründete Yao Qizhi die "Computer Science Experimental Class" (Yao - Klasse) an der Tsinghua Universität, die für die Ausbildung weltklasse Computerwissenschaftler bekannt ist. Das Shanghai Qi Zhi Institute wurde 2020 gegründet, und Yao Qizhi ist der Direktor.

Yao Qizhi, Direktor des Shanghai Qi Zhi Institutes und des Institute for Interdisciplinary Information Sciences der Tsinghua Universität, hält eine Ansprache; Foto: Shanghai Qi Zhi Institute

Die folgenden Ansichten stammen aus den Reden von Chen Jianyu, Gao Yang, Wu Yi und Xu Huazhe auf dem "Forum für interdisziplinäre Wissenschaften der Künstlichen Intelligenz" und wurden von "Intelligent Emergence" zusammengefasst und bearbeitet:

Chen Jianyu: Um die besten Daten zu erhalten, muss Embodied Intelligence von Menschen lernen

Ich stelle mir die Zukunft mit Robotern in drei Phasen vor.

In der ersten Phase werden Roboter in unser Produktivitätssystem integriert und produzieren Gegenstände wie Mobiltelefone und Autos, die wir im täglichen Leben benötigen. Dies könnte möglicherweise mehr als die Hälfte des gegenwärtigen BIP beitragen.

In der zweiten Phase werden Roboter die größten Endgeräte sein und können sich selbst herstellen.

In der dritten Phase können Roboter uns helfen, unsere Fähigkeiten zu erweitern, wie z.B. bei Musk's Vision der Mars - Kolonisation. In ferner Zukunft könnten Roboter sogar das gesamte Universum erfüllen.

Um dieses Ziel zu erreichen, denke ich, dass der kürzeste Weg darin besteht, die Erfahrungen und Daten von Menschen direkt zu lernen, da Menschen derzeit die einzigen universellen Intelligenzagenten auf der Welt sind.

Das Problem bei Embodied Intelligence liegt hauptsächlich darin, wie man Daten und Modelle effizienter gestaltet. Die Konstruktion von humanoide Robotern ermöglicht es den Robotern, leichter von den menschlichen Lernmustern zu lernen.

Chen Jianyu und sein vorgestelltes "Datenpyramidenmodell für Embodied Intelligence"; Foto: Shanghai Qi Zhi Institute

Embodied Intelligence hat ein Datenpyramidenmodell, das die Quellen der Trainingsdaten für Embodied Intelligence zeigt.

Die Spitze der Pyramide sind Daten, die durch Fernsteuerung gesammelt werden. Die Datenmenge beträgt ungefähr weniger als 10.000 Stunden. Im Vergleich dazu beträgt die Datenmenge für die Training von Sprachmodellen, wenn man sie in Stunden umrechnet, ungefähr 10^9 Stunden. Daher reichen die durch Fernsteuerung gesammelten Daten nicht aus, um die erforderliche Datenmenge für Embodied Intelligence zu erreichen.

Die tatsächlich erforderliche Datenmenge für die Training von Embodied Intelligence ist sogar größer als die für Sprachmodelle. Deshalb müssen wir auf menschliche Verhaltensdaten zurückgreifen, die die mittlere Schicht der Datenpyramide für Embodied Intelligence bilden.

Wir können Daten aus der ersten Personensicht von Menschen mithilfe von VR - Brillen, Smartbrillen und anderen Endgeräten sammeln.

Die Basis der Pyramide besteht aus Daten, die wir als "alles, was in der menschlichen Welt geschieht" bezeichnen, d.h. die breiten Daten im Internet, wie z.B. auf Videoportalen. Die Gesamtdauer aller Videos auf YouTube beträgt derzeit ungefähr 10^11 Stunden. Diese Daten sind bereits vorhanden und sehr vielfältig.

Natürlich können wir in vielen Fällen Simulationen verwenden, aber Simulationen haben ein fatales Problem: Es gibt keine menschlichen Embodied Intelligence - Agenten in der Simulation, um Daten zu generieren.

Fast alle Intelligenz - Code und Verhaltensdaten werden von Menschen generiert. Wenn eine Simulation einen solchen Intelligenzagenten konstruieren könnte, hätten wir bereits die "Wahrheit" geschaffen. Dies ist ein Henne - und - Ei - Problem. Simulationen können im Wesentlichen nur passive physikalische Interaktionsdaten konstruieren.

Deshalb sollten wir humanoide Roboter konstruieren, die direkt auf die menschlichen körperlichen Leistungen abgestimmt sind. Beispielsweise hat der neu veröffentlichte Xingdong L7 von Xingdong Jiyuan eine Höhe von 1,7 Metern, was nahe an der menschlichen Größe liegt. Er hat auch menschliche Ähnliche Arme, einen Bauch, einen Kopf und Beine, um die vielfältigen menschlichen Daten besser zu sammeln.

Manche Leute befürchten, dass der Preis für zweibeinige Roboter höher sein könnte. Ich denke, dass man sich nicht zu sehr um dieses Problem sorgen muss. Denn für universelle Roboter ist die Skalierung der wichtigste Faktor bei der Preisreduktion, nicht nur die Reduzierung der Freiheitsgrade.

Universelle humanoide Roboter haben mehr Anwendungsfälle. Mit zunehmender Skalierung werden die Kosten stark sinken. Spezialisierte oder einfache Roboter haben jedoch begrenzte erweiterbare Anwendungsfälle, was die Skalierung einschränkt und somit die Kostenreduktion begrenzt.

Als nächstes möchte ich über die Konstruktion von Modellen sprechen. Das derzeit vorherrschende VLA (Vision - Language - Action, visuelles Sprachhandlungsmodell) - Modell hat einige Probleme, da es im Wesentlichen nur eine reine Klonierung ist.

Das erste Problem ist, dass das Modell nur aus einer großen Menge menschlicher Verhaltensdaten klonen kann und fehlt die Fähigkeit, von Einzelfällen zu generalisieren. Dies führt auch zu dem zweiten Problem, dass es für Roboter schwierig ist, die menschliche Leistung zu übertreffen.

Deshalb sollte Embodied Intelligence die menschliche Lernweise berücksichtigen.

Erstens muss man die Welt modellieren und eine kognitive Vorstellung von der physischen Welt entwickeln, ähnlich wie unser "Weltmodell". Wenn wir z.B. an einer Kreuzung ankommen, bremsen wir automatisch ab, auch wenn wir nicht mit einer großen Menge von Daten trainiert wurden. Wir wissen, dass wir vermeiden müssen, jemandem zu kollidieren, der plötzlich aus der Kreuzung kommt.

Zweitens sollte man von Menschen "Reinforcement Learning" lernen. Wenn man z.B. Tischtennis lernt, ist die Unterrichtsmethode des Trainers ein Muster des "Imitationslernens". Dies reicht jedoch nicht aus, um eine so schwierige Technik zu erlernen. Deshalb muss man während des Trainings seine Haltung anpassen, um das gewünschte Ergebnis zu erzielen. Dies ist "Reinforcement Learning".

Unser Ansatz besteht darin, die Stärken des VLM in der Verständnis und des Weltmodells in der Generierung zu kombinieren und ein einheitliches Modell für Embodied Intelligence zu entwickeln.

Dies ist unser erster Versuch, ein Weltmodell zu integrieren: Das PID - Modell. Ein und dasselbe Modell kann nicht nur Vorhersagen treffen, sondern auch Verhaltensmuster generieren. Das am besten geeignete Werkzeug dafür ist ein Modell wie Sora, das auf Diffusion - Video - Generierung basiert, da es sehr detaillierte physische Verhaltensumgebungen generieren kann.

Auf der Grundlage der Diffusion Policy haben wir auch Werkzeuge, um das Verhalten des Modells gut zu generieren. Somit kann Embodied Intelligence Vorhersagen über das visuelle und andere Modalitäten treffen. Dann haben wir die "Video Addiction Policy" vorgeschlagen, um unsere Datenmenge weiter zu erweitern. Wir verwenden eine große Menge von Internet - und Videodaten für die Voreinstellung, um die Generalisierungsfähigkeit weiter zu verbessern.

Schließlich hoffen wir, dass wir die Modelltechnologie und die Daten tatsächlich über unsere verschiedenen Roboter in der realen Welt anwenden können. Durch eine Reihe von Techniken können Roboter hochdynamische Ganzkörperbewegungen ausführen, wie z.B. Tanzen, und auch Aufgaben wie die Sortierung von Waren in der Logistik erledigen.

Gao Yang: Lassen Sie die Denkweise von Robotern "schnell" und "langsam" kombinieren

Gao Yang, Mitbegründer von Qianxun Intelligence; Foto: Shanghai Qi Zhi Institute

Die Erfolge von Modellen wie ChatGPT basieren auf einer riesigen Datenmenge. Die Datenmenge für Roboter ist jedoch derzeit sehr begrenzt. Die größte öffentliche Datensammlung hat derzeit weniger als 1 Million Trajektorien. Im Vergleich zu Text - und Bilddaten im Internet ist dies um mehrere Größenordnungen geringer.

Das zentrale Problem ist, wie wir das Datenproblem in Embodied Intelligence lösen können. Ich denke, dass die wichtigste Methode das "Datenpyramidenmodell" ist. Das heißt, wir müssen Daten unterschiedlicher Qualität und aus verschiedenen Quellen nutzen, um die Datenmenge zu erhöhen.

Chen Jianyu hat bereits das Datenpyramidenmodell für Embodied Intelligence erwähnt. Ich teile die Daten für Embodied Intelligence in drei Schichten auf: Die untere Schicht besteht aus einer riesigen Menge von Internetvideos, die mittlere Schicht aus menschlichen Handlungsdaten und die oberste Schicht aus Reinforcement - Learning - Daten. Dies sind die Daten, die verwendet werden, um Roboter nach dem Erlernen einer Fähigkeit durch weitere Interaktion mit der Umgebung zu verbessern, sodass die Erfolgsrate über 99 % liegt.

Heute möchte ich sagen, dass wir nach dem Datenpyramidenmodell für Embodied Intelligence noch einen Schritt weitergehen müssen, nämlich in der Wahrnehmungsebene der Hardware und der Modellstruktur nach der Datenerfassung verbessern.

In Bezug auf die Wahrnehmungsebene hat das derzeitige VLA nur visuelle Informationen, aber für Menschen ist der Tastsinn ein sehr wichtiges Modalität. Beispielsweise muss ein Mensch nicht unbedingt mit den Augen auf die USB - Steckdose schauen, um einen USB - Stick einzustecken. Wenn ein Roboter dies jedoch tun muss, würde seine Haltung sehr komisch aussehen.

Das neu vorgeschlagene "TactileVLA" - Konzept fügt dem VLA den Tastsinn hinzu. Nehmen wir noch ein Beispiel: Wenn ein Roboter eine Tafel reinigt und es einmal nicht klappt, wird er mit dem VLM versuchen, zu überlegen, ob es daran liegt, dass die Schrift auf der Tafel besonders hartnäckig ist, und dann mit mehr Kraft noch einmal versuchen.

Durch den Prozess mit taktiler Eingabe, taktiler Ausgabe und taktiler Rückkopplung kann der Tastsinn sehr gut in das VLA - Modell integriert werden.

Mit dem Tastsinn kann Embodied Intelligence verschiedene Gegenstände besser greifen. Beispielsweise wird die Kraft, mit der man eine Frucht und einen Eisenblock greift, unterschiedlich sein.

Dadurch kann man die Reinigungsarbeit an der Tafel genauer beurteilen, indem man die Reibungseigenschaften des Tastsinns nutzt.

Nachdem wir durch das Datenpyramidenmodell eine reiche Datenmenge erhalten haben, benötigen wir noch eine gute Datenstruktur, damit Roboter aus den vorhandenen Daten das richtige Wissen lernen können. Ähnlich wie das Transformer - Framework für große Sprachmodelle.

Wenn wir einem Roboter sagen, einen Vodka - Cocktail zu mischen, steht er vor einer Vielzahl von Flaschen. Embodied Intelligence muss die Aktion in mehrere ausführbare Atomaktionen zerlegen. Wenn man jedoch nur das VLA für reflektierendes Denken verwendet, oder wie wir es oft nennen, die System - 1 - Denkweise (eine Denkweise des Gehirns, die eher intuitiv und schnell ist), ist die Erfolgsrate sehr gering.

Wir haben das OneTwoVLA vorgeschlagen, ein Modell, das die System - 1 - und System - 2 - Denkweise (systematisches Denken des Gehirns, langsamer) kombiniert. Dieses Modell kann sich selbst entscheiden, ob die aktuelle Aufgabe eine Analyse erfordert oder ob es einfach die aktuelle Handlungspfad ausführen muss.

Genauer gesagt, wenn ein Roboter zum Beispiel für das Braten von Lebensmitteln in einem Kochtopf zuständig ist und vor einer Vielzahl von Lebensmitteln steht. Wenn man ihm sagt, Rindfleisch zu braten, wird er Rindfleisch braten. Wenn man ihm sagt, Gemüse zu braten, wird er feststellen, dass es verschiedene Gemüsesorten gibt und den Benutzer fragen, welches Gemüse er braten soll. Durch dieses Modell kann die Aufgabe auf struktureller Ebene zerlegt werden, um bessere Ergebnisse zu erzielen.

Wu Yi: In Zukunft wird es nicht nur einen Embodied Intelligence - Agenten geben, sondern Multi - Agenten