GGV Capital spricht mit Galaxy Universal Robotics: Die Realisierung der embodied Intelligence in der Praxis – Investitionshinweis Nr. 244
In jüngster Zeit haben wir erfolgreich die Jiyuan Capital RMB-Fonds-Jahrestagung 2025 veranstaltet. Dabei haben sich zahlreiche Anleger, namhafte Unternehmensgründer und wichtige Partner versammelt, um tiefe Gespräche und Austausch rund um führende Bereiche wie KI, Intelligente Fertigung, digitale Medizin und Embodied Intelligence zu führen.
Im Folgenden das Gespräch zwischen Xu Bingdong, Managing Partner von Jiyuan Capital, und Wang He, Gründer und Chief Technology Officer von Galaxy Universal Robotics:
Xu Bingdong: Lassen Sie mich Herrn Wang He vorstellen. Herr Wang ist Gründer und Chief Technology Officer von Galaxy Universal Robotics. Er hat in Stanford University promoviert und unter einem US-amerikanischen Mitglied der drei Akademien studiert. Gleichzeitig ist er auch Gründer und Leiter des Embodied Intelligence Lab der Peking-Universität. Wie wir wissen, hat Herr Wang einen hohen Standpunkt in fachlicher Hinsicht, aber er ist tatsächlich noch sehr jung – er ist ein Neunzig-Jähriger. Wir freuen uns sehr, heute mit ihm über das Thema Embodied Intelligence sprechen zu können.
Wang He: Vielen Dank für die Einleitung, Eric. Es ist mir eine große Ehre, an diesem Event teilzunehmen. Galaxy Universal Robotics wurde vor zweieinhalb Jahren gegründet und ist derzeit das Robotikunternehmen mit der höchsten Finanzierungsmenge unter den nicht börsennotierten Embodied Intelligence-Unternehmen in China – natürlich bedanken wir uns dafür bei Jiyuan Capital. Ich freue mich auch sehr, heute mit Ihnen über das Thema Embodied Intelligence zu diskutieren.
Xu Bingdong: Unser heutiges Gespräch wird eher auf technischer Ebene verlaufen. Ich möchte Herrn Wang zunächst fragen, welche wichtigen technischen Ergebnisse das Unternehmen in den zweieinhalb Jahren seit der Gründung von Galaxy Universal Robotics erzielt hat?
Wang He: Bereits zu Beginn unseres Startups haben wir uns für einen sehr praktischen und flexiblen Weg in Bezug auf Modelle und Hardware entschieden.
Embodied Intelligence ist Intelligenz, die in der physischen Welt wurzelt. Roboter müssen mit der Welt auf physischer Ebene interagieren und Daten generieren, um dieses Modell kontinuierlich zu trainieren. Und Galaxy Universal Robotics hat von Tag eins an das größte Problem der gegenwärtigen Embodied Intelligence benannt: Wir haben keine reichhaltigen Daten aus der physischen Interaktion von Robotern mit der Welt – für Large Language Models gibt es offensichtlich kein so gravierendes Datenmangelproblem. Texte, Bilder und Videos aus dem Internet, insbesondere die massiven Interaktionsinhalte in sozialen Medien, reichen aus, um Large Language Models zu füttern.
Autonomes Fahren, obwohl es ebenfalls zur Embodied Intelligence gehört, ist vielleicht eine Ausnahme. Hunderttausende, Millionen von Autofahrern generieren natürlich die Daten. Doch für die meisten Embodied Intelligence-Roboter besteht von Anfang an das Problem des Datenmangels: Es gibt in der Branche keine Hunderttausende von Benutzern von Embodied Intelligence-Robotern, die Daten generieren.
Der Grund, warum Galaxy Universal Robotics so schnell vorankommt, ist, dass wir uns bewusst sind, dass Embodied Intelligence weltweit vor dem oben genannten „Data Cold Start“-Problem steht. Die Kerntechnikstrategie von Galaxy Universal Robotics besteht darin, mit physikalischer Simulation und synthetischen Daten einen Heißstartimpuls für Embodied Intelligence während der Cold-Start-Phase zu geben.
Wir verwenden über 99 % synthetische Daten plus weniger als 1 % Daten, die aus der realen Welt gesammelt wurden, um so die Umsetzung von Embodied Intelligence wirklich zu ermöglichen.
Bei der Weltkongress für Künstliche Intelligenz im vergangenen Jahr hat der Premierminister persönlich einen Smart Retail-Roboter von Galaxy Universal Robotics getestet und uns angewiesen, dieses Produkt zu fördern. Der humanoider Roboter von Galaxy Universal Robotics bietet derzeit Retail-Services in fast hundert Geschäften in mehreren Dutzend Städten in ganz China.
Xu Bingdong: Wir wissen, dass vor vielleicht nur sechs Monaten vielen Menschen noch schwerfiel, Embodied Intelligence und Roboter im Konzept zu unterscheiden. Wie definiert Galaxy Universal Robotics Embodied Intelligence?
Und neigt der Kerntechnikpfad von Galaxy Universal Robotics eher zum derzeit viel diskutierten „World Model“? Existiert überhaupt ein sogenanntes „World Model“ in dieser Welt? Oder legen wir eher den Schwerpunkt auf ein rein datengesteuertes, selbstüberwachendes Embodied Model?
Wang He: Was sind die Unterschiede zwischen den Begriffen „Embodied Intelligence“, „Roboter“ und „humanoider Roboter“, die wir heute so oft erwähnen?
Der Begriff „Embodied Intelligence“ wird tatsächlich in gewissem Maße generalisiert. Meiner Meinung nach soll Embodied Intelligence sich von traditionellen Robotern unterscheiden. Im Regierungsprogramm des Premierministers im vergangenen Jahr wurde Embodied Intelligence als zukünftige Branche definiert. Das bedeutet, dass die Roboter, die derzeit in Hotels gemäß einem geplanten Pfad Speisen liefern, oder die Roboterarme, die gemäß einer festen Bahn arbeiten, offensichtlich keine Embodied Intelligence sind – sie haben keinen intelligenten Kern, sondern sind nur ein Programm, das bestimmte Probleme lösen kann.
Der Kern von Embodied Intelligence besteht darin, sich ständig an Aufgaben und Umgebungen anzupassen und selbst in der Lage zu sein, verschiedene neue Situationen zu bewältigen. Dahinter steht immer eine datengesteuerte Logik.
Und solange es einen intelligenten Kern gibt, muss es nicht unbedingt ein humanoider Roboter sein. Unser Vierbeinerhund von Galaxy Universal Robotics kann beispielsweise nach der Implementierung eines Large Language Models zusammen mit Müttern und Kindern durch den Einkaufszentrum spazieren gehen. Dies ist auch ein Geschenk, das wir an den Bildungs- und Erziehungsmarkt anlässlich des Kindertags 2025 geschenkt haben. Natürlich ist das humanoider Roboter immer noch die am meisten beachtenswerte Kategorie in der Embodied Intelligence-Branche und wird als die einzige Anwendung angesehen, die unseren Alltag am stärksten beeinflussen kann. Denn er kann am leichtesten in die menschliche Lebensumgebung integriert werden und kann alles tun, was ein Mensch kann.
Embodied Intelligence ist die Seele des humanoiden Roboters. Wie können wir diese Seele verstehen und aktivieren? Die dahinter liegende Mechanik ist eigentlich ähnlich wie die von uns Menschen mit natürlicher Intelligenz.
Wir hier im Raum sind im Wesentlichen alle ein Embodied End-to-End Large Language Model. Wenn wir jedes Synapsen in unserem Gehirn als einen Schalter betrachten, der einem Parameter in einem Large Language Model entspricht, sind wir alle Individuen mit Billionen von Parametern, größer als die größten Large Language Models heute. Für jede Anweisung, sei es Hausaufgaben machen, laufen oder putzen, müssen wir nicht verschiedene Gehirne einschalten, um jede Aufgabe zu bewältigen. Wir verwenden ein einziges Large Language Model, um alle Anforderungen und Situationen zu bewältigen.
Wenn wir durch Handlungen etwas bewältigen, werden wir bewusst alle Muskelfasern aktivieren und uns selbst sagen, wie unsere Hände und Füße sich bewegen sollen, um die gewünschte Handlung umzusetzen. Andererseits haben wir auch Vorstellungen von den Auswirkungen unserer Handlungen – wie wird die Welt, mit der wir in Kontakt stehen, sich verändern, nachdem ich so gehandelt habe? Letzteres gehört zum Bereich des World Models. Und ersteres, auf eine Anweisung zu reagieren und den Körper so zu bewegen, wie es erforderlich ist, ist das Inverse Model.
Beide Modelle existieren gleichzeitig und sind beide wichtig. Für Embodied Intelligence reicht es nicht aus, nur ein World Model zu haben. Wenn wir ein Objekt aufheben und wegwerfen, kann unser Gehirn natürlich nicht im Zentimeterbereich vorhersagen, wo das Objekt landen wird und wie oft es auf dem Boden springen wird. Aber dennoch können wir diesen Prozess in der Regel problemlos bewältigen.
Das World Model ist ein Lernmittel, aber nicht die gesamte Intelligenz. Es ist sogar nicht das, was das erste Prinzip von Embodied Intelligence erfordert – das Inverse Model entspricht eher dem ersten Prinzip.
Xu Bingdong: Ich stimme Ihren Ausführungen voll und ganz zu. Lassen Sie uns das Thema weiter vertiefen. Wenn wir Embodied Intelligence in die Phasen Bewegungskontrolle, Aufgabenplanung, allgemeines Verhalten und reale Welt unterteilen, in welcher Phase befindet sich derzeit das Produkt von Galaxy Universal Robotics? Und welche Probleme müssen wir lösen, um in die nächste Phase zu gelangen?
Wang He: Für die Umsetzung von Embodied Intelligence in jedem Anwendungsfall muss ein geschlossener Kreis aus Bewegungskontrolle, Aufgabenplanung, allgemeinem Verhalten und Autonomie in der realen Welt erreicht werden. Was das allgemeine Verhalten angeht, haben wir es noch nicht erreicht. Wie bekannt ist, kann auch derzeit niemand auf der Welt behaupten, dass er allgemeines Verhalten erreicht hat.
Ich möchte Ihnen einige Szenarien beschreiben, die Galaxy Universal Robotics derzeit beherrscht. Beispielsweise können unsere Roboter in Menschenmassen wie in Wangfujing in Peking, am Bund in Shanghai, am Westsee in Hangzhou oder an der Chunxi Road in Chengdu in der Lage sein, die gesamte Prozess von der Entnahme bis zur Abgabe von Produkten zu bewältigen. Dabei müssen sie visuell geführt werden und die menschliche Sprache verstehen. Während der Bewegung müssen sie sich frei drehen können, sich je nach Höhe der Regale hinunterbeugen oder aufrichten. Bei hängenden Waren müssen sie wissen, wie man sie vorsichtig herunternimmt. Bei Flaschenwaren müssen sie in der Lage sein, sie zu greifen. Und bei der Umsetzung dieses gesamten detaillierten Prozesses sind wir technologisch unabhängig.
Die Retail-Space Capsules von Galaxy Universal Robotics sind bereits in fast hundert Standorten in ganz China installiert, was uns sehr stolz macht. Kürzlich hat das Team um Elon Musk den Optimus-Roboter entwickelt, der in Times Square in New York erstmals ein Tablett aufnehmen und abgeben konnte. Der Roboter stand im Wesentlichen still und nahm dann eine Zuckerbeutel vom Tablett und gab ihn an die Zuschauer ab. Selbst ein so einfaches Verhalten war nur für eine kurze Zeit möglich. Im Gegensatz dazu können unsere Space Capsules rund um die Uhr genutzt werden.
Ich weiß, dass die Erwartungen an humanoider Roboter nicht nur auf den Verkauf in Retail-Lagern beschränkt sind. Von der gegenwärtigen Situation in die Zukunft hinein überlegen und planen wir, wie wir von einer einzelnen Fähigkeit zu einer Sammlung von Fähigkeiten gelangen können und schließlich in der Lage sein werden, eine Vielzahl von Fähigkeiten frei anzuwenden. Derzeit bilden die Fähigkeiten Navigation, Greifen und Ablegen unsere erste Basisarchitektur. Auf dieser Basisarchitektur hoffen wir, dass der humanoider Roboter auch in der Lage sein wird, verschiedene Gegenstände auf Tischen, Regalen und in tiefen Schubladen zu bewältigen. Derzeit haben wir bereits mehrere Dutzend Smart Pharmacy-Lager in ganz China eröffnet, die vollständig von unseren Robotern von Galaxy Universal Robotics betrieben werden, um die Fähigkeit der Roboter, schnell und genau Medikamente zu greifen, zu nutzen.
Zurzeit sind unsere Roboter nicht mehr auf das Greifen und Ablegen mit zwei Fingern beschränkt. Kürzlich haben wir das dexterous hand neurodynamics model DexNDM veröffentlicht, das es erstmals ermöglicht, dass ein allgemeiner dexterous hand komplexe Objekte in beliebigen Positionen und Achsen stabil drehen kann. Der Roboter kann beispielsweise einen kleinen Schraubendreher mit seinen fünf Fingern greifen und so eine Schraube langsam eindrehen. Mit der Weiterentwicklung der Fähigkeiten von Embodied Intelligence auf dieser Ebene werden wir neue Märkte im Bereich der Montage und des Manipulations von Milliarden oder gar Billionen eröffnen können.
Wir werden schrittweise unsere Fähigkeiten erweitern. Aber bei Embodied Intelligence wird es wahrscheinlich kein „ChatGPT Moment“ geben. Es wird nicht einen Tag geben, an dem vor diesem Tag Ihr humanoider Roboter noch nichts kann und nach diesem Tag, nach einem wichtigen technologischen Durchbruch, alles kann. Ich persönlich glaube, dass eine solche Veränderung nicht plötzlich an einem Tag passieren wird. Es wird ein langer Prozess sein, in dem Daten kontinuierlich akkumuliert werden, das Modell in verschiedenen Szenarien geschlossen implementiert wird, und anschließend die Hardware sukzessive verbessert wird. Am Ende wird ein Produkt entstehen, das für eine bestimmte Branche geeignet ist und dann auf ähnliche Aufgaben ausgedehnt werden kann. Deshalb glaube ich nicht, dass es einen Tag geben wird, an dem eine große Anzahl von Arbeitskräften plötzlich arbeitslos werden. Denn