StartseiteArtikel

Ein ehemaliger Algorithmen-Forscher von Tencent Robotics X gründet ein Unternehmen und erhält binnen 4 Monaten 3 Runden an Finanzierungen. Sein Ziel ist es, in 3 bis 5 Jahren humanoide Roboter in Haushalte zu bringen.

富充2025-11-20 07:33
In den vier Jahren bei Tencent hat Zhu Qingxu mehrere Arten von Trainingsdaten an ein Embodied-Modell gegeben. Schließlich kam er zu dem Schluss: "Das vorherrschende Verfahren, das auf Fernsteuerungsdaten trainiert wird, hat prinzipielle Mängel."

Text | Fu Chong

Redaktion | Su Jianxun

Zhu Qingxu, ein junger Mann aus der "Post-95-Generation", war einst ein Forscher im Robotics X Lab von Tencent. Im Juni 2025 verließ er das Lab und gründete die Firma Lingqi Wanwu, die sich auf Algorithmen für Embodied Intelligence spezialisiert hat.

Nach exklusiven Informationen von "Intelligent Emergence" hat Lingqi Wanwu binnen vier Monaten nach ihrer Gründung bereits drei Runden an Finanzierungen abgeschlossen, mit einem Gesamtbetrag von fast 100 Millionen Yuan. Die erste Runde wurde von Yuanhe Origin alleine finanziert; die zweite Runde wurde von Harmony Partners angeführt, wobei Inno Angel, Yuansheng Venture Capital und Jinqiu Fund mitinvestierten, und der alte Aktionär Yuanhe Origin übernahm sogar ein überhöhtes Mitinvestitionsvolumen. Die dritte Runde wurde von Jinqiu Fund angeführt, gefolgt von Meihua Ventures und Zhuoyuan Asia, während der alte Aktionär Inno Angel ebenfalls ein überhöhtes Mitinvestitionsvolumen übernahm und Harmony Partners mitinvestierte.

Kürzlich hat Lingqi Wanwu mit Hilfe eigener Algorithmen und Robotern von Unitree eine Demo-Serie vorgestellt.

In unbeschleunigten Videos können die Roboter eine Reihe von Haushaltsaufgaben mit einer menschlichen Bewegungsfluß ausführen, von der Beseitigung von Milben auf dem Bett bis hin zum Gießen von Pflanzen auf hohen Blumengestellen mit Hilfe einer Leiter.

Die Inspiration für diese Aufgaben stammt aus einem Thema auf Xiaohongshu, "Ein Tag einer Mutter, die allein für ihre Kinder sorgt". Zhu Qingxu hat daraus einige der aufwendigsten Aufgaben ausgewählt, da diese fast alle "Hände und Füße" erfordern und somit die Steuerungsfähigkeit der Embodied Intelligence-Algorithmen für die Roboter stark herausfordern.

Nachdem das Video veröffentlicht wurde, wurden über 4.000 Mal geteilt, und einige Kommentare sagten: "Der siliconbasierte Haushaltshilfe wird zum Greifbaren."

△Video-Demo, Bild: Interviewpartner zur Verfügung gestellt

Im Interview hat Zhu Qingxu einige "gegenkonsensuelle" Ansichten vorgebracht.

"Ich glaube, dass der bipedale humanoide Roboter der beste Typ für Haushaltsaufgaben ist, und dass dies innerhalb von 3 - 5 Jahren erreicht werden kann", sagte Zhu Qingxu.

Der Haushaltsbereich besteht aus einer Vielzahl von nicht-standardisierten Aufgaben und Umgebungen, was die Schwierigkeit der Embodied Intelligence bei Lernen und Generalisierung erhöht. Hinzu kommt, dass der bipedale Aufbau an sich in Bezug auf Bewegungskontrolle, Balance und technische Komplexität herausfordernd ist. Daher hält die Branche eher die Ansicht, dass der Einsatz von bipedalen humanoiden Robotern in Haushalten ein "Endszenario" ist, das erst in 5 bis 10 Jahren Realität werden wird.

Zhu Qingxu ist fest davon überzeugt, dass bipedale humanoide Roboter Haushaltsaufgaben besser bewältigen können. Der Grund dafür ist, dass die menschliche Welt auf die menschliche Körperstruktur zugeschnitten ist, und nur der humanoide Aufbau kann die menschlichen Daten am besten nutzen und sich an die komplexen Haushaltsumgebungen anpassen. Insbesondere Bewegungen wie Klettern, Springen und Hocken sind für Räderfahrer schwer zu realisieren.

Was die deutlich frühere Prognose für den "Einsatz von Robotern in Haushalten" im Vergleich zur Branche angeht, hat Zhu Qingxu auch direkt Gründe genannt.

"Warum schreitet die Entwicklung der Trainingsprogramme für humanoide Roboter so langsam voran, und warum sind die Bewegungen in vielen Demo-Videos so langsam? Das derzeitige Standardverfahren, das auf Fernsteuerungsdaten basiert, hat prinzipielle Mängel." sagte er.

Nach seiner Meinung muss der Bediener bei der Fernsteuerung ein Fernbedienungsgerät benutzen, um den Roboter bei der Ausführung von Aufgaben zu steuern. Da der Mensch während der Steuerung denkt, werden die Bewegungen, die eigentlich aus Instinkt ausgeführt werden sollten, langsam und ruckartig. Das Training von Robotern mit solchen Daten führt zwangsläufig zu unflüssigen Bewegungen.

Die Formulierung dieser Ansichten basiert auf Zhu Qingxus früheren akademischen und beruflichen Erfahrungen.

Zhu Qingxu hat ein Fachwissen in Roboterkontrolle und -forschung. Er absolvierte 2021 ein gemeinsames Programm der Eidgenössischen Technischen Hochschule Zürich und der RWTH Aachen University.

Im Jahr 2021 trat er in das Robotics X Lab von Tencent ein. In den folgenden vier Jahren sammelte er mit seinem Team Daten auf verschiedene Weise, um das Embodied Intelligence-Modell systematisch zu trainieren. Dabei stellten sie fest, dass Modelle, die auf Fernsteuerungsdaten trainiert wurden, eine relativ geringe Effizienz bei der Ausführung von Aufgaben zeigten.

Im Mai dieses Jahres hat auch die amerikanische Robotikfirma Boston Dynamics Zweifel an der Fernsteuerung geäußert. Sie meint, dass die Fernsteuerung die "System 2" (langsames System) des Menschen nutzt, um Daten zu sammeln, was zu ineffizienten, dynamikarmen und unnötigen Bewegungen führt. Dies hat Zhu Qingxus technischen Ansatz inspiriert.

In den Algorithmen von Lingqi Wanwu verwendet Zhu Qingxu eine Architektur aus "Kleinhirn" und "Gehirn". Das erste ist für die Bewegungskontrolle zuständig, während das zweite Planung und Generalisierungsfähigkeiten bietet.

Aktuell konzentriert sich Lingqi Wanwu auf den Bereich des "Kleinhirns", der von der Branche bisher weniger beachtet wurde. Durch die Erstellung einer vollständigen "Menschenbewegungsbibliothek" können sie schnell Bewegungsdaten sammeln und den Robotern effizient die meisten Grundbewegungen (Meta-Bewegungen) beibringen.

Bei der Sammlung von Daten von echten Robotern verzichtet Lingqi Wanwu auf die gängige Methode der "Fernsteuerung" und wählt stattdessen das Verfahren "optische Bewegungserfassung + UMI".

Dieses Verfahren verwendet zunächst die optische Bewegungserfassungstechnologie. Der Bediener trägt ein spezielles Gerät und führt in einem Sammelraum natürliche Bewegungen aus, die von mehreren Kameras gleichzeitig aufgezeichnet werden. Dies ermöglicht nicht nur eine präzisere Wiedergabe der flüssigen und instinktiven menschlichen Verhaltensmuster, sondern auch eine erhebliche Verbesserung der Effizienz der Datensammlung im Labor.

Anschließend kann der Bediener in einer realen Umgebung ein UMI-Greifwerkzeug direkt benutzen, um Objekte zu manipulieren. So können in großem Maßstab reale Interaktionsdaten zwischen Hand und Objekt gesammelt werden. Zusammen mit den Bewegungserfassungsdaten aus dem ersten Schritt entsteht eine hochwertige und skalierbare Trainingsdatenbasis.

△Der Bediener trägt ein Bewegungserfassungsgerät, das seine Körperhaltung aufzeichnet. Bildquelle: Interviewpartner zur Verfügung gestellt

Was die Schlüsselpunkte der Finanzierung angeht, hat Zhu Qingxu von Lingqi Wanwu darauf hingewiesen, dass die technologische Differenzierung seiner Firma im Vergleich zu den gängigen Lösungen der Hauptgrund für die rasche Finanzierung durch führende Institutionen ist. Er sagte, dass diese Anleger, die in weitem Umfang in das Feld der Embodied Intelligence investieren, sich dennoch für Lingqi Wanwu entschieden haben, weil sie den Synergiewert der Technologie im Vergleich zu anderen investierten Unternehmen schätzen.

Zhu Qingxu geht weiter davon aus, dass die Einführung von bipedalen humanoiden Robotern in Haushalte auf 3 - 5 Jahre verkürzt werden kann, sobald die Effizienz der Technologie verbessert ist.

In naher Zukunft könnten bipedale humanoide Roboter möglicherweise innerhalb von 1 - 2 Jahren in Einzelhandelsgeschäfte und Fast-Food-Läden ohne Personal eingesetzt werden. Da die Aufgaben in diesen Szenarien festgelegt und die Umgebungen kontrollierbar sind, können die Roboter schnell getestet werden und kommerziellen Wert schaffen.

Was die Wettbewerbsvorteile von Lingqi Wanwu angeht, hat Zhu Qingxu zusammengefasst: "Als alle an die Fernsteuerung glaubten, konnten wir erkennen, dass es prinzipielle Mängel gibt und einen neuen Ansatz finden. Unsere Fähigkeit, das Ziel des Haushalts- und Dienstleistungssektors im Auge zu behalten und eine unausgereifte Idee Schritt für Schritt in die Realität umzusetzen, ist unser wahrer Wettbewerbsvorteil."

Dies ist auch Zhu Qingxus erstes öffentliches Statement seit seiner Gründung. Das folgende Interview wurde vom Autor bearbeitet:

△Bildquelle: Interviewpartner zur Verfügung gestellt

Das "Fernsteuerungsverfahren" hat prinzipielle Mängel

Intelligent Emergence: Warum glauben Sie, dass das "Fernsteuerungsverfahren" prinzipielle Mängel hat?

Zhu Qingxu: Der Kern liegt darin, dass die Fernsteuerung die "langsame Denkweise" des Menschen nutzt, um den Roboter zu steuern. Der Bediener muss beobachten, denken und dann handeln. Dieser Prozess ist von Natur aus langsam, ruckartig und mit unnötigen Pausen verbunden.

Das Training von Robotern mit Daten aus diesem "langsamen System" bedeutet, dass der Roboter einem Lehrer folgt, dessen Bewegungen ohnehin nicht flüssig sind. Dadurch wird die Leistungsobergrenze des Roboters eingeschränkt. Dies ist der Grund für alle beschleunigten Roboter-Videos, die Sie sehen.

Darüber hinaus ist die Fernsteuerung bei feinfühligen Manipulationen, die taktile Rückmeldung erfordern, wie z. B. das Öffnen von Flaschenkappen, ineffizient. Da der Bediener keine echte Kraftfeedback erhält, weiß er möglicherweise nicht, ob die Roboterhand die Kappe richtig greift, was die Effizienz der Bewegung verringert.

Intelligent Emergence: Wenn das Fernsteuerungsverfahren die von Ihnen genannten Probleme hat, warum ist es dann so weit verbreitet?

Zhu Qingxu: Ich denke, dass die ursprüngliche Idee war, den Roboter direkt mit Objekten interagieren zu lassen und echte Daten von ihm zu sammeln. Die Fernsteuerung war das erste Verfahren, das dieses Ziel erreicht hat.

Intelligent Emergence: Wie funktioniert Ihr alternatives Verfahren "Bewegungserfassung + UMI" genau? Welche Vorteile hat es? Zhu Qingxu: Dies ist ein Verfahren, das auf einem Gleichgewicht zwischen Datenqualität und -menge abzielt.

Optische Bewegungserfassung: Im Labor trägt ein Mensch ein Bewegungserfassungsanzug und führt natürliche Bewegungen aus (unter Verwendung des "schnellen Denksystems"). Dadurch können die flüssigen und koordinierten Bewegungen des menschlichen Körpers mit hoher Präzision aufgezeichnet werden.

UMI: Dies kann als ein handgehaltenes Greifwerkzeug verstanden werden. Der Bediener benutzt das UMI-Gerät, um Objekte direkt zu manipulieren. So können in großem Maßstab Interaktionsdaten zwischen Hand und Objekt gesammelt werden.

Indem wir beide Methoden kombinieren, erhalten wir einen Datensatz, der sowohl die hohe Qualität der Bewegungserfassung als auch die große Menge der UMI-Daten aufweist. Dieser Datensatz zeichnet die unbewussten Bewegungen des Menschen auf, die der Roboter tatsächlich lernen sollte.

In der Datenpyramide befinden sich die Fernsteuerungsdaten an der Spitze. Obwohl es sich um Daten von echten Robotern handelt, sind deren Mengen begrenzt. Die Videodaten befinden sich dagegen an der Basis. Obwohl es sehr viele Videodaten gibt, können diese aufgrund von Problemen wie Perspektive und Videoqualität möglicherweise nicht effizient für das Training verwendet werden. Unser Verfahren liefert genau die Daten aus der mittleren Schicht der Pyramide - sie sind besser als Videodaten und in größerer Menge als Fernsteuerungsdaten.

Intelligent Emergence: Wie teilen sich das "Kleinhirn" und das "Gehirn" in Ihrem Algorithmus die Aufgaben und wie arbeiten sie zusammen?

Zhu Qingxu: Wir verwenden eine hierarchische Architektur, die der Logik der Intelligenzentwicklung entspricht.

Kleinhirn (Meta-Bewegungsbibliothek): Ziel ist es, alle menschlichen Grundbewegungen wie Gehen, Laufen, Hocken, Greifen und Ziehen zu beherrschen. Wir trainieren es in einer Simulationsumgebung ohne reale Objekte mit Hilfe von Bewegungserfassungsdaten. Sobald diese "Meta-Bewegungsbibliothek" fertiggestellt ist, ist sie universell einsetzbar und kann in allen Szenarien verwendet werden.

Gehirn (Aufgabenplanung und Generalisierung): Es ist für die Wahrnehmung der Umgebung durch Kameras, das Verständnis von Sprachbefehlen, die Planung von Aufgaben und die genaue Nutzung der Bewegungen aus der "Kleinhirn-Bibliothek" zur Ausführung von Aufgaben verantwortlich.

Sie arbeiten nicht nacheinander, sondern in einer gekoppelten Iteration. Je reicher die Fähigkeiten des Kleinhirns sind, desto mehr Werkzeuge kann das Gehirn nutzen; je intelligenter das Gehirn ist, desto genauer kann es die Fähigkeiten nutzen.

△In der Demo reinigt der Roboter das Bett von Milben. Bildquelle: Interviewpartner zur Verfügung gestellt

Innerhalb von 3 - 5 Jahren von unbemannte Geschäfte in Haushalte

Intelligent Emergence: Sie haben erwähnt, dass humanoide Roboter innerhalb von 1 - 2 Jahren in unbemannte Geschäfte eingesetzt werden können. Wie wird dies konkret umgesetzt? Wie schnell können sie lernen?

Zhu Qingxu: In Szenarien wie unbemannte Kentucky Fried Chicken-Filialen oder Supermärkten sind die Aufgaben und