StartseiteArtikel

Universität Hongkong Professor Li Hongyang gründet Unternehmen für allgemeine ganzkörperliche verkörperte Gehirne und erhält mehrere hundert Millionen Yuan Seed-Finanzierung von ZhenFund, Gaorong Capital, IDG, Wuyuan und anderen | Hardkex Exklusiv

黄 楠2026-06-29 09:27
Ein humanoider Roboter ist keine Option, sondern die unvermeidliche Endform. Source Robotics wird das weltweit erste vollkörperliche verkörperte Gehirn entwickeln.

Autor | Huang Nan

Redakteur | Yuan Silai

Hard Krueger hat exklusiv erfahren, dass das Unternehmen für universelle ganzkörperliche kognitive Systeme „Archon Robotics“ kürzlich eine Samenfinanzierungsrunde im Wert von mehreren Hundert Millionen Yuan abgeschlossen hat. Die Investoren dieser Runde umfassen Top-Dollar-Fonds wie ZhenFund, Banyan Capital, IDG Capital und Matrix Partners, sowie das gemeinsame Fonds von Gobi Partners und der Universität Hongkong, Miracle Plus und die Shanghai Institute of Innovation and Intelligence. Lightspeed Capital hat als exklusiver Finanzberater fungiert.

Das Kapital aus dieser Runde wird hauptsächlich für die Forschung und Entwicklung von Basis-Modellen für ganzkörperliche Humanoiden, die Erfassung von multimodalen ganzkörperlichen Bewegungsdaten, die Erweiterung des Teams sowie die Einrichtung von Forschungs- und Entwicklungszentren an verschiedenen Standorten und die Aufbau eines industriellen Kooperationsökosystems verwendet, um die Veröffentlichung eines quelloffenen Basis-Modells für Humanoiden in diesem Jahr zu beschleunigen.

Archon Robotics wurde im April 2026 gegründet und hat seinen Forschungssitz im Caohejing High-Tech Park im Xuhui-Bezirk von Shanghai. Das Unternehmen konzentriert sich auf die Forschung und Entwicklung von universellen Basis-Modellen für ganzkörperliche Humanoiden und den Aufbau von Ganzkörperintelligenz (Whole-body Intelligence), um Humanoiden die Fähigkeit zur menschenähnlichen ganzkörperlichen Bewegung und Manipulation zu verleihen und so die Einbürgerung von kognitiven Systemen in Haushalte zu beschleunigen.

Dr. Li Hongyang, der Gründer des Unternehmens, ist derzeit Assistentprofessor an der Universität Hongkong, stellvertretender Dekan der Fakultät für Informatik und Datenwissenschaft sowie Mentor an der Shanghai Institute of Innovation and Intelligence. Sein End-to-End-Selbstfahrprojekt UniAD erhielt den Best-Paper-Award auf der CVPR 2023 und war das einzige Werk eines chinesischen akademischen Instituts, das in den letzten zehn Jahren diesen Preis gewann. Im Jahr 2026 erhielt er den RSS Early Career Award, dem renommiertesten internationalen Preis in der Robotikbranche, und wurde damit der erste chinesische Wissenschaftler seit der Gründung des Preises vor 20 Jahren.

Dr. Li Tianyu, Mitgründer und CEO des Unternehmens, ist ein ehemaliger Student der ersten Klasse der Shanghai Institute of Innovation and Intelligence und hat seinen Doktorgrad an der Fudan-Universität gemacht. Er war als Kernentwickler tief in die Entwicklung des Welt-Engines-Schemas für die serienmäßige Produktion von selbstfahrenden Fahrzeugen ADS 4.0 von Huawei involviert. Dr. Chen Li, Mitgründer und Leiter der KI-Abteilung, ist der erste Autor des Best-Paper von UniAD. Er hat seinen Bachelorabschluss an der Shanghai Jiao Tong University gemacht und erhielt den Präsidentenstipendium für Doktoranden der Universität Hongkong.

Das Kernteam von Archon Robotics besteht aus Forschern der Top-Forschungsgruppen in den Bereichen Selbstfahrende Fahrzeuge, Robotik und Large Language Models von der Universität Hongkong, Tsinghua-Universität, Shanghai Jiao Tong University, Fudan-Universität und Zhejiang-Universität. Sie verfügen über Erfahrungen in der Entwicklung von originären Algorithmen und der Implementierung von ultragrößten industriellen Systemen.

Das Archon-Team hebt das Glas am Everest-Basislager. Foto aufgenommen im Februar 2024 am Mount Everest (Quelle: Unternehmen)

Die Branche der kognitiven Systeme befindet sich derzeit an einem entscheidenden Wendepunkt. Offizielle Daten von Omdia und anderen Quellen zeigen, dass im ersten Halbjahr 2026 in China insgesamt 288 Finanzierungsereignisse in den Bereichen kognitive Systeme und Robotik stattfanden, und das offenbarte Gesamtfinanzierungsvolumen belief sich auf über 46 Milliarden Yuan, was sich schnell der Gesamtsumme von 55,4 Milliarden Yuan im Jahr 2025 nähert. Doch hat die enorme Finanzierung nicht zwangsläufig zu einer Konvergenz der technischen Ansichten geführt.

Die meisten gegenwärtigen Lösungen für kognitive Systeme weisen inhärente Einschränkungen auf: Die verfügbaren Trainingsdaten bestehen hauptsächlich aus Videos aus erster Person auf einem Tisch und Bewegungen von Einarmrobotern oder Greifern. Informationen über die Anpassung des Schwerpunkts des gesamten Körpers, die Nutzung des Rumpfs und die Koordination mehrerer Gliedmaßen fehlen. Dies bedeutet, dass die meisten Roboter nur Greifaufgaben an festen Punkten ausführen können und Schwierigkeiten haben, alltägliche Aufgaben wie das Öffnen von Türen, das Aufrichten von Betten oder das Öffnen und Schließen von Türen mit beiden Händen auszuführen, da diese Aufgaben die Koordination des gesamten Körpers erfordern.

Die Ursache dieser Einschränkung liegt in der strukturellen Lücke in der Dateninfrastruktur. Li Tianyu, CEO von Archon Robotics, sagte Hard Krueger: „Die verfügbaren Datensätze für kognitive Systeme scheinen zwar umfangreich, aber die Informationen, die tatsächlich für das Training von ganzkörperlichen Humanoiden effektiv sind, sind äußerst begrenzt.“

Datensätze aus erster Person ermöglichen nur die Aufzeichnung der Bilder, die das menschliche Auge sieht. Informationen über die wichtigen Bewegungsstellungen wie Hocken, Neigen und Biegen fehlen. Die annotierten Daten von Roboterarmen und Greifern konzentrieren sich hauptsächlich auf die Ebene, und nur die Endtrajektorien werden aufgezeichnet. Das Modell kann lernen, wie sich der Manipulator bewegt, aber es ist schwierig, zu verstehen, wie er mit der Umgebung interagiert. Die Gesamtmenge der Daten von echten Humanoiden ist ohnehin sehr gering, und die Erfassungskosten betragen mehrere hundert bis fast tausend Yuan pro Stunde. Die Stichproben für komplexe Aufgaben, die die Kopplung mehrerer Gelenke des gesamten Körpers betreffen, fehlen in den bisherigen Datensätzen fast vollständig.

Jede der drei Datentypen weist Defizite auf, was auf dasselbe Problem hinweist: Die wichtigsten Informationen für die Ausführung alltäglicher Bewegungen, wie die Koordination des gesamten Körpers, die Verschiebung des Schwerpunkts und die Übertragung von Kraft von den unteren Gliedmaßen auf die oberen Gliedmaßen, sind in den vorhandenen Daten fast nie aufgezeichnet worden.

Nehmen wir ein einfaches alltägliches Szenario als Beispiel. Wenn eine Person eine leichte und eine schwere Tür öffnet, ist der Unterschied in der Handbewegung fast nicht zu erkennen. In beiden Fällen greift man zuerst an der Türklinke und zieht sie zurück. Unabhängig von der Kraft bleibt die Position und Bewegung der Hand immer synchron mit der Bewegung der Tür. Der echte Unterschied liegt auf der Ebene des gesamten Körpers. Bei einer leichten Tür kann man die Tür aufrecht öffnen, während man bei einer schweren Tür den Körper neigen muss, um den Schwerpunkt nach vorne zu verlagern und das Gewicht gegen den Widerstand zu nutzen.

Diese Informationen über die Schwerpunktverschiebung werden nur in den Daten des gesamten Körpers aufgezeichnet und enthalten die wesentlichen Unterschiede in den physikalischen Eigenschaften der Objekte. Einfach ausgedrückt: Wenn das Modell über einen langen Zeitraum nur Informationen aus einer einzigen Dimension lernt, kann es vielleicht die Aktion „Tür öffnen“ ausführen, aber es kann nicht verstehen, was „wie schwer die Tür ist“ auf der menschlichen Ebene bedeutet.

„Das langfristige Fehlen von Informationen hat die Fähigkeiten der gegenwärtigen Roboter auf die Ebene des festen Tischgreifens eingeschränkt. Zwischen den Roboterfähigkeiten und den vielfältigen Aufgaben in der realen Haushaltsumgebung besteht eine Datenspaltung.“ sagte Li Tianyu. „Um diese Schranke zu überwinden, müssen wir zurück zum Ursprung gehen und die Logik der Datenerfassung neu definieren.“

Das Archon-Team ist der Meinung, dass der Übergang von der Lösung mit einem Räderfahrwerk und zwei Armen zu Humanoiden wesentliche Unterschiede in der Struktur, der Bewegungssteuerung und der Wahrnehmungsebene aufweist und kein einfacher Formupgrade ist. Während ausländische Unternehmen gerade erst die Komplexität der Aufgaben für Humanoiden erkennen, haben sie bereits frühzeitig ihr Ziel darauf festgelegt.

Archon Robotics zielt auf ein fast unerschlossenes Gebiet ab: die Entwicklung eines universellen Basis-Modells für ganzkörperliche Humanoiden. Der Kerngedanke, der hinter diesem Ansatz steht, ist das Human Body Learning, d. h. das Lernen der Körperschaft und Koordination des Menschen, anstatt nur die Trajektorien der Endeffektoren zu verfolgen. Indem die Roboter aus den Bewegungen des menschlichen Körpers lernen, können sie die „Weisheit der Gliedmaßenkoordination“ erwerben und eine vollständige ganzkörperliche Interaktionsfähigkeit entwickeln.

Durch die Abspeicherung der „Intelligenz“ der Humanoiden in der Mittelschicht des Gehirns, die unabhängig vom Körper ist, kann die Fähigkeit, die das Mittelschicht-Gehirn lernt, nicht an einen bestimmten Roboter gebunden werden. Stattdessen werden ganzkörperliche Bewegungsbahnen ausgegeben, anstatt Gelenkwinkelbefehle für ein bestimmtes Modell. Dies ermöglicht es dem Modell, auf verschiedene Körper zu übertragen. Je vollständiger die Datenerfassung und je vielfältiger die abgedeckten Szenarien sind, desto stärker wird die Repräsentationsfähigkeit des Mittelschicht-Gehirns, und desto breiter wird der Bereich der Körpertypen sein, auf die das ganzkörperliche kognitive System von Archon Robotics übertragen werden kann.

Basierend auf dieser Einschätzung wird Archon Robotics ein neues System zur Datenerfassung aufbauen. Gründer Li Hongyang ist der Meinung, dass sich der Entwicklungspfad der Datensätze für kognitive Systeme von der Fernsteuerung echter Roboter zu Handgeräten und erster Person-Perspektive hin entwickelt. Das Endziel ist ein ganzkörperlicher Datensatz, der alle menschlichen Wahrnehmungselemente enthält und mit Ganzkörperbewegungs-Labels versehen ist und auf dem Menschen als Zentrum (Human-Centric) basiert.

Zusätzlich wird Archon Robotics multidimensionale Wahrnehmungsmodalitäten wie Haptik einführen und hochpräzisere Ganzkörper- und Handaufnahmesysteme einsetzen. Li Tianyu sagte Hard Krueger, dass die Vielfalt und Qualität der Daten wichtiger sind als die reine Datenmenge. „Ein Datensatz, der die Schwerpunktverschiebung und die Veränderung des Rumpfwinkels abdeckt, hat eine viel höhere Informationsdichte als hundert Datensätze, die nur die Handbewegung auf einem Tisch enthalten.“

Die Art der Datenerfassung bestimmt, was das Modell lernen kann, und die Schwächen des Modells definieren wiederum das Ziel der nächsten Datenerfassung. Sobald dieser geschlossene Kreis aus „Erfassung - Training - Rückmeldung“ funktioniert, entsteht eine sich ständig verstärkende Datenbarriere: Nach jeder Runde der Datenerfassung und des Trainings steigt die Fähigkeit des Modells, und die Erkenntnis des Systems darüber, welche Daten wirklich nützlich sind, wird präziser. Dadurch steigen die Effizienz und Qualität der nächsten Datenerfassung.

Dies erfordert nicht nur technische Fähigkeiten auf Algorithmusebene, sondern auch ein systematisches Verständnis der grundlegenden Frage: „Was muss das Modell wirklich aus der physischen Welt lernen?“ Und genau dieses Verständnis ist die wichtigste Urteilsfähigkeit von Archon Robotics.

Hard Krueger hat erfahren, dass Archon Robotics voraussichtlich Ende 2026 sein erstes Basis-Modell für Humanoiden veröffentlichen wird.

Nach Ansicht des Archon-Teams muss ein Humanoid nicht nur eine perfekte Einzel-Demo liefern, um aus dem Labor in das Haushaltseinsatz zu gelangen. Vielmehr muss es in der Lage sein, in einer komplexen, dynamischen und unstrukturierten Haushaltsumgebung kontinuierlich und zuverlässig zu arbeiten. Die Obergrenze dieser Fähigkeit hängt im Wesentlichen von der Tiefe des Verständnisses des Modells für die physische Welt ab.

Archon Robotics hat sich entschieden, an den Anfang der kognitiven Systeme zu gehen und diese Frage neu zu beantworten: Mit welchem Körper und aus welchen Daten lernt ein Roboter, bestimmt, wie weit er am Ende kommen kann.

Im Folgenden finden Sie eine Auswahl aus dem Interview von Hard Krueger mit Dr. Li Hongyang, Gründer von Archon Robotics, und Dr. Li Tianyu, CEO des Unternehmens (leicht bearbeitet):

Hard Krueger: Derzeit befindet sich die Branche der kognitiven Systeme noch nicht in einer Konvergenzphase. Archon Robotics hat sich entschieden, ein universelles Basis-Modell für ganzkörperliche Humanoiden zu entwickeln. Was liegt dieser Entscheidung zugrunde?

Li Tianyu: Unser Ansatz unterscheidet sich in zwei wesentlichen Punkten von den gängigen Lösungen auf dem Markt.

Erstens die Hardware-Form. Archon Robotics hat sich von Anfang an auf vollständige Humanoiden festgelegt. Das Kernproblem, das wir lösen möchten, ist die Koordination mehrerer Gelenke des gesamten Körpers und die dynamische Anpassung des Schwerpunkts. Die meisten Teams wählen ein Räderfahrwerk mit zwei Armen. Dies ist aus ingenieurmäßiger Sicht verständlich, da es eine gute Stabilität bietet, die technische Schwierigkeit relativ niedrig ist und es in kurzer Zeit möglich ist, ein Demo zu entwickeln. Aber in der Haushaltsumgebung kann ein Räderfahrwerk nicht einmal über eine Schwelle fahren, ganz zu schweigen von alltäglichen Handlungen wie Hocken, Klettern oder Durchqueren enger Spalten. Die menschliche Form ist keine Option, sondern die unvermeidliche Endform.

Zweitens die Architektur des Grundmodells. Wir entwickeln ein spezielles, auf Humanoiden basierendes kognitives Large Language Model, anstatt bestehende VLA- oder Weltmodelle zu fine-tunen. Der Unterschied zwischen den beiden besteht darin, dass das erste Modell die grundlegende Logik des menschlichen Interaktions mit der physischen Welt aus Ganzkörperdaten lernt, während das zweite Modell lernt, wie man ein Objekt auf einem festen Tisch bewegt. Die Architektur unseres Modells ist von Anfang an für Ganzkörperbewegungen konzipiert. Das Gehirn ist für die Aufgabenverständnis und die langfristige Planung verantwortlich, das Mittelschicht-Gehirn lernt die Ganzkörperbewegungsrepräsentation über verschiedene Körper hinweg, und das Kleinhirn ist für die Echtzeit-Positionsverfolgung und die Balanceaufrechterhaltung zuständig. Die drei Schichten arbeiten zusammen, um Ganzkörperbewegungsbahnen auszugeben, anstatt nur einfache Endeffektor-Befehle.

Basierend auf diesem Ansatz haben wir eine unabhängige Datenaufzeichnungskette aufgebaut. Wir sammeln einerseits in großem Maßstab Daten über die Ganzkörperbewegungen von normalen Menschen in realen Szenarien, und andererseits trainieren wir das Modell mit Daten aus der praktischen Anwendung von Humanoiden. So kann das Modell die von Geburt an vorhandene Fähigkeit der menschlichen Ganzkörperkoordination und -interaktion nachbilden.

Archon Robotics möchte ein Ganzkörpergehirn für Humanoiden entwickeln, das in einer nicht voreingestellten Haushaltsumgebung funktioniert. Der Roboter muss in der Lage sein, die Veränderungen in seiner Umgebung autonom wahrzunehmen und verschiedene Aufgaben flexibel zu bearbeiten: Das Gewicht der Gegenstände, ihre Position und die Raumausstattung können jederzeit ändern, und es gibt keine festen Szenarien. Die Kernanforderung ist eine starke Generalisierungs- und Transferfähigkeit. Wenn das Modell eine Logik lernt, kann es damit hunderte von verschiedenen Szenarien bewältigen.

Hard Krueger: Sie haben in einem öffentlichen Interview den gegenwärtigen Entwicklungsstand der Branche der kognitiven Systeme mit der Stufe L1.5 der autonomen Fahrweise verglichen. Worauf basiert diese Behauptung? Welche Dimensionen entsprechen dabei?

Li Hongyang: Wir können die Einstufung der autonomen Fahrweise von L1 bis L5 nutzen,