StartseiteArtikel

Laut einem Bericht von 36kr haben Light Speed Photonics und Legend Capital als Lead-Investoren in weniger als einem Monat mehrere hundert Millionen RMB in die "Variable Robot" investiert, um die iterative Entwicklung von embodied AI-Modellen zu beschleunigen.

王枪枪Zach2025-02-17 15:44
Seit seiner Gründung verfolgte er den Ansatz eines "einheitlichen End-to-End-Großmodells mit Groß- und Kleinhirn".

Text | Wang Fangyu

Redaktion | Su Jianxun

Kürzlich erfuhr 36 Kr, dass das Unternehmen „X Square Robot“, das sich auf verkörperte Intelligenz spezialisiert hat, eine Pre-A++ Finanzierungsrunde in Höhe von mehreren hundert Millionen RMB abgeschlossen hat. Diese Finanzierungsrunde wurde von Lightspeed und Junlian Capital angeführt, mit weiterer Unterstützung durch den Beijing Robot Industry Fund und Shenqi Capital. Die Mittel werden für die Ausbildung und Implementierung eines einheitlichen verkörperten allgemeinen KI-Modells der nächsten Generation verwendet.

X Square Robot wurde im Dezember 2023 gegründet, mit dem Ziel, durch die Entwicklung eines verkörperten allgemeinen KI-Modells universelle Roboter zu realisieren. Im November 2024 berichtete 36 Kr über die erfolgreiche Finanzierung in der Höhe von Hunderten von Millionen RMB in Pre-A und Pre-A+ Runden.

Das ultimative Ziel von Universalrobotern ist es, wie Menschen durch Interaktion, Wahrnehmung und Handlung Aufgaben autonom auszuführen, wobei sie eine hohe Effizienz in Generalisierung und Übertragungsfähigkeit besitzen. Der Schlüssel zur Erreichung dieses Ziels liegt im allgemeinen verkörperten KI-Modell für Roboter. International tätige Technologieunternehmen wie Skild AI, Google DeepMind und Physical Intelligence (PI) engagieren sich aktiv in diesem Bereich.

Verkörperte Intelligenz kann hauptsächlich in das Gehirn (Kognition und Entscheidungsfindung) und das Kleinhirn (Bewegungskontrolle) unterteilt werden. Derzeit erkunden inländische Unternehmen verschiedene Entwicklungswege: Einige konzentrieren sich auf das Gehirn, um die Sprachverständnis- und Planungsfähigkeiten von Robotern zu verbessern; andere fokussieren sich auf das Kleinhirn, um die Bewegungskontrolle wie Gehen und Greifen zu optimieren.

Einige Unternehmen entscheiden sich für eine einheitliche End-to-End-Route zwischen Gehirn und Kleinhirn, eine Route, die auch von führenden ausländischen Technologieunternehmen wie Physical Intelligence (PI) und Skild AI gewählt wird.

X Square hat sich seit der Gründung für die „einheitliche End-to-End-Gehirn-Kleinhirn-Route“ entschieden.

Der Gründer und CEO Wang Qian erklärte gegenüber 36 Kr, dass ein echtes verkörpertes intelligentes Gesamtmodell den gesamten Prozess von der Wahrnehmungseingabe bis zur Aktionsausgabe abdecken sollte, ohne künstliche Schichtung oder Modultrennung. Dies ist der wahre Weg, um allgemeine verkörperte Intelligenz zu erzielen.

„Traditionelle hierarchische Architekturen können zwar Aufgabenoptimierung in speziellen Aufgaben erreichen, sind jedoch schwierig, sich an die dynamischen Veränderungen komplexer Umgebungen anzupassen. Die End-to-End-Lösung ermöglicht es Robotern, direkt von der Wahrnehmung zur Bewegung zu gelangen und eine effiziente Rückkopplungsschleife zu bilden, wodurch sie in Multi-Task-Szenarien stärker selbstlernend und anpassungsfähiger sind.“

Im Inland haben sich die Technologierouten der Unternehmen, die sich für ein End-to-End-Modell entschieden haben, differenziert: Einige wählen, spezielle Aufgaben oder Modelle für ein einzelnes Szenario vorzugsweise zu trainieren; X Square hingegen trainiert von Anfang an in mehreren Aufgaben und umfangreichen Szenarien, um die Generalität und Anpassungsfähigkeit des Modells zu verbessern.

Wang Qian erklärte, dass bei komplexen Aufgaben, die deutlich über Einzelfunktionen hinausgehen, fast alle erfolgreichen Ergebnisse von verkörperten intelligenten Gesamtmodellen erzielt werden. Kleine Modelle, die für jede Aufgabe eine bestimmte Modellstruktur entwerfen, können oft nur die grundlegendsten Einzeloperationen ausführen und nicht generalisieren.

Im Gegensatz dazu konzentrieren sich große Modelle darauf, das Modell in einem ingenieurtechnischen Ansatz zu skalieren, bis volle Allgemeinheit erreicht ist. Die beiden Technologiestapel sind völlig unterschiedlich, und das Sammeln von Erfahrungen mit kleinen Modellen kann nicht effektiv auf die Realisierung eines großen Modells übertragen werden.

Im November letzten Jahres gab X Square Robot die Realisierung des global größten verkörperten allgemeinen Betriebsmodells mit der WALL-A Modellreihe der Great Wall Serie (GW) bekannt. Dieses Modell zeichnet sich durch eine hohe Generalität und Generalisierungsfähigkeit aus, erreicht mit weniger Beispielen hohe Übertragungsfähigkeit und Anpassung an verschiedene physische Umweltvariablen und Bewegungsmuster und zeigt sich bei lang anhaltenden komplexen Operationen überlegen.

Wang Qian bemerkte, dass die Fähigkeiten des WALL-A-Modells nach mehreren Monaten der Iteration bereits auf dem gleichen Niveau wie Skild AI und Physical Intelligence liegen, wobei einige Fähigkeiten sogar stärker als die ausländischer Wettbewerber sind.

Auf der Ebene der Aufgabenkomplexität kann WALL-A feine Operationen wie das Ziehen eines Reißverschlusses oder das Ordnen von Kleidung ausführen und dabei in zufälligen Umgebungen Anpassungsfähigkeit an komplexe topologische Strukturen und physische Interaktionen zeigen. Bezüglich der Genauigkeit bei komplexen Aufgaben erzielt sie hervorragende Ergebnisse bei flexiblen Operationen wie dem Falten und Trocknen von Kleidungsstücken, wobei die Erfolgsrate für Aufgaben von mehreren Minuten 90 % übersteigt.

Darüber hinaus kann das allgemeine verkörperte KI-Modell von X Square Robot auch semantische Navigation ohne Karten und Tiefeneingaben realisieren und auf Basis von Video sofortige Entscheidungen und Echtzeitbefehlsverfolgung durchführen. Es besitzt auch Fähigkeiten zur autonomen Umwelterkundung.

Das Kernteam von X Square Robot sitzt in Shenzhen, wobei das Software-Algorithmus-Team sowohl im Bereich der Robotik-Lerntechnologie als auch in großen Modellen versiert ist. Hardwareseitig hat das Unternehmen eine Reihe von Schlüsselkompetenzen und Führungskräften führender Hardware-Unternehmen zusammengestellt, die über ausgereifte Engineering-Fähigkeiten und Massenproduktionserfahrung verfügen.

Der Gründer und CEO Wang Qian hat seinen Masterabschluss an der Tsinghua Universität gemacht und ist einer der ersten Forscher weltweit, die den Attention-Mechanismus in neuronalen Netzwerken vorgeschlagen haben. Während seines Doktorats an einem Top-Robotik-Labor in den USA war er an verschiedenen Forschungsprojekten zu Roboter-Lerntechnologien beteiligt, die fast alle Bereiche abdecken, die mit Robotik-Betrieb und Home-Service-Robotern zusammenhängen. Der Mitgründer und CTO Wang Hao ist Doktor der Physik an der Peking Universität und war zuvor Algorithmusleiter für das große Modellteam des List of Gods am Zhuhai Special Economic and Technological Development Zone (IDEA Institut). Er leitete die Entwicklung des ersten 100 Milliarden Modells und einem der frühesten 1000 Milliarden Modelle „Ziya“.

Investorenmeinungen:

Cai Wei, Partner bei Lightspeed, sagte: „Wir haben in X Square Robot investiert, weil wir seine führende Technologiepositionierung und Wettbewerbsunterschiede im Bereich verkörperte Intelligenz schätzen. Das von der Firma selbst entwickelte End-to-End-Verkörperungsmodell hat eine führende Generalisierungs- und Intelligenzstufe im Inland erreicht. Wir glauben, dass X Square Robot mit der zunehmenden Bedeutung von verkörperter Intelligenz in der kommenden Roboterrevolution durch generelle Technologie, Teamdurchführung und Integrationsfähigkeit von Branchenressourcen ein bedeutender globaler Akteur werden kann.“

Zhu Jia, Partner bei Lightspeed, sagte: „X Square Robot ist ein Marktführer für End-to-End-Roboter-Großmodelle im Inland, der nicht nur in der Generalisierungsfähigkeit des Modells voraus ist, sondern auch in der eigenständigen Entwicklung von F&E-Werkzeugketten proaktiv ist, was eine gemeinsame Eigenschaft erfolgreicher Hard-Tech-Startups ist. Interessant ist, dass sowohl der Gründer Wang Qian als auch der Gründer von Deepseek, Liang Wenfeng, aus dem Bereich der quantitativen Strategien stammen. Wir freuen uns darauf, dass X Square auch im Bereich verkörperte Intelligenz die gleiche Rolle wie Deepseek übernehmen könnte.“

Ji Haiquan, Managing Director von Junlian Capital, sagte: „Verkörperte Intelligenz steht am kritischen Wendepunkt seiner Entwicklung, mit großem Potenzial, die Entwicklung verschiedener Branchen zu beeinflussen. X Square Robot konzentriert sich auf die Entwicklung allgemeiner verkörperter KI-Modelle und hat sich entschieden, den technischen Weg des ‚einheitlichen End-to-End-Gehirn-Kleinhirn-Modells‘ zu verfolgen, der innovativ und weitblickend ist. Junlian Capital hat sich lange auf zukunftsweisende Technologien konzentriert und untersucht aktiv die Bereiche KI und verkörperte Intelligenz. Mit der Investition in X Square Robot hoffen wir, das Team auf seinem Weg im Bereich verkörperte Intelligenz zu unterstützen, technische Innovationen und Szenarioimplementierungen zu beschleunigen und Chinas verkörperte Intelligenz-Industrie auf neue Höhen zu bringen.“

Liang Wangnan, General Manager der Jingguorui Funds, sagte: „Der Beijing Robot Industry Fund sieht großes Marktpotenzial für die verkörperte Intelligenzindustrie vor uns. Mit der Entwicklung großer KI-Modelle und verkörperter Intelligenztechniken treten die Planungs- und Ausführungsfähigkeiten von Robotern in eine Phase schneller Verbesserung ein, und universelle intelligente Roboter sollen zu einer neuen Generation von Mensch-Maschine-Interaktionsterminals werden. Das einheitliche End-to-End-Basismodell von X Square basierend auf Zero-Shot oder Few-Shot-Nachtrainings zeigt bereits gute Generalisierungsfähigkeiten und effektive Erfüllung komplexer Langzeitaufgaben. Der Roboterfonds wird auf das Produktions-, Forschungs- und Entwicklungssystem Beijings und auf reichhaltige Anwendungsszenarien stützend weiterhin X Square unterstützen.“

Liang Mingshu, Managing Partner bei Shenqi Capital, sagte: „Wir sehen langfristig die technologischen Vorteile und das Wachstumspotential von X Square im Bereich verkörperter Intelligenz. Von Anfang an hat sich das Unternehmen für die einheitliche End-to-End-Modelltechnologie entschieden und damit nicht nur Maßstäbe im Parameterumfang gesetzt, sondern sich auch in entscheidenden Dimensionen wie Szenenübertragungs-Effizienz und Behandlung langanhaltender komplexer Aufgaben ausgezeichnet. Während unserer Zusammenarbeit haben wir eine schnelle Iteration und Optimierung in Modelloptimierung, Datenakkumulation und Produktimplementierung erlebt, die meine Erwartungen übertroffen hat. Wir hoffen, dass das Unternehmen weiterhin technologische Durchbrüche in der verkörperten Intelligenz anführt. Shenqi Capital wird die Innovationsanwendungen der verkörperten Intelligenz weiter verfolgen und in Verbindung mit seinen reichen Industrieszenarien wertschöpfende Unternehmen unterstützen, um die Technologie zu einer breiteren nützlichen Bedeutung zu führen.“