StartseiteArtikel

Im Vergleich mit dem Datenpfad von Nvidia EgoScale hat Xingyi Technology, ein Unternehmen aus dem Tsinghua-Umfeld, die erste Runde Finanzierung erhalten.

任倩2026-03-27 16:00
Der Matchpunkt hat sich verschoben.

Text | Ren Qian

Der globale Wettlauf um den embodied data layer (Schicht der verkörperten Daten) nimmt rapide Fahrt auf. Das NVIDIA Research veröffentlichte im Jahr 2026 das EgoScale-Daten- und Trainingsframework und trainierte ein VLA-Modell anhand von egozentrischen Videos menschlicher Handlungen. Anhand von 20.854 Stunden an erstpersonlichen menschlichen Videos mit Aktionsannotationen wurde ein nahezu logarithmisch-linearer Skalierungsgesetz (scaling law) zwischen Datenvolumen und Validierungsverlust beobachtet. 1X sammelt Daten aus der ersten Person und zu häuslichen Verhaltensmustern und hat über das Sunday-Projekt Millionen von Stunden an Videos aus häuslichen Szenarien gesammelt. Guanglun Intelligence verfolgt einen Mixed-Ansatz, der synthetische Simulationsdaten mit menschlichen Videodaten (EgoSuite) kombiniert, und behauptet, dass es insgesamt über 1 Million Stunden an Daten geliefert hat, was seinen Unternehmenswert auf eine Milliarde US-Dollar skyrocketten ließ.

Innerhalb weniger Monate hat sich der Fokus der Branche nicht mehr nur auf die Frage "Wer sammelt mehr?" gerichtet, sondern auf die Frage "Wer kann die humanzentrierten / egozentrierten Daten wirklich zu hochflexiblen, hochpräzisen, kostengünstigen und trainierbaren Ressourcen machen?"

Hinter alledem verbirgt sich ein eindeutiger Paradigmenwechsel in Bezug auf die Daten. In den letzten zwölf Monaten haben fast alle globalen Spitzenakteure ihren Blick auf humanzentrierte Daten gerichtet: nicht auf größere Mengen an drittpersonlichen Materialien, und auch nicht nur auf teure und seltene Fernbedienungen echter Geräte, sondern auf Daten, die näher am tatsächlichen menschlichen Handlungsverhalten liegen. Und dabei wird die egozentrierte Herangehensweise - mit der ersten Person des Menschen, der realen physischen Interaktion und der multimodalen Wahrnehmung als Kern - rasch zur wichtigsten Datenerfassungsroute.

Der Grund dafür ist, dass Roboter letztendlich lernen müssen, nicht nur die Welt zu verstehen, sondern auch die richtigen Bewegungen in der realen physischen Welt auszuführen. Drittpersonliche Videos bieten zu wenige Details über die Berührung und Kontrolle, Simulationen können nicht vollständig alle realen physischen Randbedingungen abdecken, und reine Fernbedienungsdaten sind teuer und selten. Was wirklich fehlt, sind Daten, die sowohl real genug als auch detailliert genug sind und gleichzeitig in großem Maßstab produziert und von Modellen direkt verarbeitet werden können. Gerade an diesem Wendepunkt taucht eine Firma auf, die sich für eine multimodale Fusion und eine hochpräzise Datenerfassung per Tragegeräten entschieden hat, um diesen schwierigen Punkt anzugehen.

„Anchong Waves“ hat aus exklusiven Quellen erfahren, dass Star Memory Technology, ein Startup, das sich auf die Erfassung egozentrierter Daten konzentriert, eine erste Finanzierungsrunde im Millionenbereich abgeschlossen hat. Die Leitung übernahm die Tsinghua-affilierte Shuimu Venture Capital, während Quanshi Capital als Brutstätte des Unternehmens seit langem industrielle und kapitalmarktmäßige Unterstützung bietet und auch an dieser Finanzierungsrunde beteiligt ist. Mitinvestoren sind die Shenzhoutongyu-affilierte Yuezhuo Capital sowie erfahrene angelsächsische Investorteams. Maple Pledge Capital fungiert seit langem als Berater für die private Kapitalbeschaffung des Unternehmens.

Star Memory Technology wurde an der Fakultät für Informatik der Tsinghua-Universität gegründet. Der Gründer, Song Zhiheng, war früher Leiter des Produkts von Vollgrößen-Dreibein-Humanoidenrobotern bei Zhibot und verantwortete auch die Errichtung des Systems für die Datenerfassung und Fernbedienung. Bevor er diesen Posten übernahm, war er einer der ersten 20 Mitarbeiter von MegaRobo, gründete dort die Abteilung für innovative Anwendungen und war Leiter des Produkts. Unter seiner Leitung absolvierte das Forschungs- und Entwicklungsteam fünfmal die Entwicklung neuer Produkte von Null auf Eins, leitete die Forschung und Entwicklung von Zweiarm-Kooperationsrobotern bis hin zu desktopfähigen intelligenten Geräten an und erreichte die erste Massenproduktion von zehntausend Einheiten sowie einen Umsatz von über einer Million Yuan für das Unternehmen.

Wenn humanzentrierte / egozentrierte Daten zur neuen Grundlage der embodied intelligence werden, so zeichnet sich Star Memory Technology nicht nur durch die Wahl der richtigen Richtung aus, sondern auch dadurch, dass es die schwierigsten Schritte auf diesem Weg in einer einzigen Organisation vereint. Seine Kernmitglieder haben Expertise in den Schlüsselfeldern der embodied data, der Modelle, der Tragegeräte, der komplexen Systeme und der Daten-Engineering. Dies hat zu einer Fähigkeitsstruktur geführt, in der die Aspekte "Daten - Modell - Produkt - Kommerzialisierung" miteinander verbunden sind.

Das technische Team der Firma besteht aus Absolventen von Hochschulen wie der Tsinghua-Universität und der Beihang-Universität sowie erfahrenen Branchenexperten aus Unternehmen wie EVATEC und Hikvision. Sie haben langjährige Forschungserfahrung in den Bereichen embodied intelligence, multimodaler Wahrnehmung, dreidimensionalem Verständnis der Hände, Virtual Reality, Mensch-Maschine-Interaktion und Computer Vision. Insgesamt haben sie über 70 Artikel in internationalen Top-Konferenzen und Zeitschriften wie CVPR, ICCV, ECCV, NeurIPS und IJCAI veröffentlicht und mehrere nationale Forschungsprojekte übernommen.

Im Vergleich zum EgoScale-Technologiepfad von NVIDIA hat Star Memory Technology ein Hardware- und Software-System für die Datenerfassung für die embodied intelligence und das Weltmodell aufgebaut. Der Unterschied besteht darin: Star Memory folgt nicht dem Weg der Zwei-Finger-Klemme (UMI), sondern strebt hohe Präzision bei hoher Flexibilität an; es erfasst nicht nur visuelle Daten, sondern kombiniert auch visuelle, taktile und Positionsdaten; und es versucht nicht nur, Werkzeuge bereitzustellen, sondern auch die komplette Kette von der Datenerfassung bis zum Training zu schließen.

Song Zhiheng ist der Meinung, dass wirklich wertvolle Daten von realen Geräten nicht davon abhängen, wie viel jemand sammelt, sondern davon, ob fünf Bedingungen gleichzeitig erfüllt werden können: Realität, Präzision, hohe Flexibilität, niedrige Kosten und Trainierbarkeit. In seiner Ansicht liegen die größten Stärken von Star Memory derzeit in der Präzision und der Flexibilität, während die niedrigen Kosten und die Trainierbarkeit darüber entscheiden, ob dieser Ansatz wirklich Skalierbarkeit erreichen kann.

Kürzlich traf "Anchong Waves" Song Zhiheng und das selbst entwickelte multimodale Datenerfassungssystem von Star Memory Technology im Zhongguancun-Bezirk von Peking. Er sprach mit uns über die grundlegenden Unterschiede in der Technologie der Datenerfassung, die Schwierigkeiten bei der Millimeter-genauen Positionsannotierung und die lange Reise von einem Datenlieferanten zu einer Schnittstelle zur physischen Welt.

Im Folgenden das Gespräch -

Teil 01

Von der Mengenerfassung zur Präzisionserfassung

„Anchong“: Es gibt viele Firmen, die mit Daten arbeiten, und es gibt auch solche, die viel mehr Kapital aufgebracht haben als Sie. Wie würden Sie die Position von Star Memory Technology beschreiben?

Song Zhiheng: Wir sind die physische Dateninfrastruktur für die embodied intelligence. Mit unseren selbst entwickelten hochpräzisen Tragegeräten und unserem Datenmotor wandeln wir die raffinierten "Produktivitätserfahrungen" von Menschen in "digitale Nährstoffe" um, die Roboter lernen können.

Es geht im Kern um eine einzige Sache: Roboter in der Lage zu machen, feine Manipulationen in der realen und komplexen Welt auszuführen. Nicht um Roboter zum Tanzen zu bringen, sondern um es ihnen zu ermöglichen, ein Skalpell so sicher zu halten wie ein Chirurg.

„Anchong“: Warum haben Sie sich jetzt entschieden, in diesem Bereich zu gründen? Was haben Sie bei Zhibot beobachtet?

Song Zhiheng: Ich war Leiter des Produkts von Vollgrößen-Dreibein-Humanoidenrobotern bei Zhibot und verantwortete auch die Datenerfassung und Fernbedienung. Wir konnten deutlich sehen, dass die am häufigsten verkauften Szenarien in der Branche immer noch Messen, Showperformances, Forschung und Datenerfassung sind. Es ist schwierig, einen replizierbaren Produktivitätskreislauf zu schaffen.

Der Kern des Problems liegt in dem Mangel an hochwertigen realen Daten: Die Modelle fehlen sowohl eine effektive Repräsentation der physischen Welt als auch transferierbare Handlungsvorannahmen. Und genau das ist unser Auftrag. Von außen betrachtet, setzen wir uns an den EgoScale an. Innerhalb unseres Unternehmens war dies jedoch eine Einsicht, die wir schon frühzeitig gewonnen haben: Die embodied intelligence fehlt letztendlich nicht nur an Modellen und Robotern, sondern vor allem an einem effizienten Datenpfad. Dass NVIDIA diesen Weg öffentlich und erfolgreich verfolgt, zeigt, dass dies zur Branchenkonzeption wird.

„Anchong“: Warum ist EgoScale so erfolgreich? Warum interessieren sich alle Hersteller von embodied Robotern für diese Technologie? Was macht das EgoScale-Framework so besonders, und wo liegen seine Durchbrüche?

Song Zhiheng: Der Erfolg von EgoScale beruht hauptsächlich auf der Validierung eines sehr attraktiven Ansatzes: Die effiziente Übertragung von menschlichen Verhaltensmustern auf die Handlungsfähigkeit von Robotern durch riesige Mengen an Daten aus der ersten Person. Dies ist für die embodied intelligence von großer Bedeutung, da die Roboterausbildung in der Vergangenheit immer wieder durch teure reale Gerätedaten, langsame Datenerfassung und begrenzte Szenarien eingeschränkt war und es somit immer schwierig war, einen großen Skaleneffekt zu erzielen.

Der Durchbruch von EgoScale liegt darin, dass es nicht einfach nur Daten sammelt, sondern ein systematischeres Trainingsframework aufbaut. Durch die schrittweise Ausbildung lernt es zunächst allgemeine Handlungsvorannahmen aus einer riesigen Menge an Daten aus der ersten Person und überträgt diese dann auf den Aktionsraum von Robotern. Dies hat die Erfolgsquote von Robotern bei feinen Manipulationen deutlich verbessert. Durch diese Konzeption besteht die Möglichkeit, die traditionellen Beschränkungen wie "Kleinprobe, starke Abhängigkeit von Fernbedienung und Gerätedaten" zu überwinden.

Was noch wichtiger ist, passt dieser Ansatz natürlich zu den derzeit wichtigsten Ansprüchen der embodied Branche: Einerseits können menschliche Daten leichter in großem Maßstab erfasst werden als Roboterdaten. Andererseits hat dieses Framework ein hohes Potenzial für die Generalisierung bei Robotern unterschiedlicher Formen und Freiheitsgrade. Für Hersteller von Robotern besteht die Chance, in der nächsten Phase des Wettbewerbs um die Fähigkeiten einen Vorsprung zu erlangen, wenn sie effizientere, transferierbare und wiederverwendbare Daten und Trainingsmethoden nutzen können. Deshalb interessiert sich die gesamte Branche stark für EgoScale.

„Anchong“: Gibt es Unterschiede zwischen Ihnen und EgoScale? Wenn ja, wo liegen sie?

Song Zhiheng: Ja, es gibt Unterschiede. Wir haben nicht nur mehr Modalitäten. Die taktile Wahrnehmung ist für feine Manipulationen unerlässlich. Darüber hinaus haben wir eine höhere Kompatibilität mit verschiedenen Szenarien. Wir sind nicht auf Laborbedingungen beschränkt, sondern können auch in der freien Welt eingesetzt werden. Unsere Geräte können direkt in realen Produktionsumgebungen getragen werden, um Daten zu erfassen. Dies stellt eine höhere Herausforderung für die Algorithmen und die Tragekomfort dar.

Star Memory EgoKit Multimodales Datenerfassungssystem und Star Memory HBR Engine Datenmotor | Bildquelle: Unternehmensmaterial

„Anchong“: Wie verstehen Sie den Begriff "weltklasse"?

Song Zhiheng: Die Obergrenze wird nicht nur von den Modellparametern bestimmt, sondern auch von der Qualität des "teacher signals": Multimodale Datenerfassung, feingranulares Verständnis der Hände und hochpräzise Annotationen sind die Grundlagen für hochwertige embodied Daten. Stellen Sie sich vor, wenn die Demonstrationsbewegungen selbst Zittern, Verschiebungen und zeitliche Fehler aufweisen, lernt das Modell nicht Fähigkeiten, sondern Fehler.

Die Schätzung der menschlichen Körperhaltung ist oft ein Problem im Zentimeterbereich, während die Hände oft im Millimeterbereich betrachtet werden müssen: Die Gelenkpunkte sind dichter, die Verdeckungen häufiger und die Interaktion zwischen Hand und Objekt komplexer. Die technische Schwierigkeit steigt nicht linear, sondern exponentiell.

Deshalb ist das Verständnis der Hände einer der schwierigsten Aspekte bei der Erfassung von embodied Daten und eine Technologie auf L4 - L5 - Ebene. Wir verfügen über die weltweit besten Fähigkeiten auf diesem Gebiet, während die Schätzung der Körperhaltung auf L2 - Ebene liegt. Wenn wir diesen Aspekt gründlich bearbeiten, ist der Übergang zu den Oberarmen und schließlich zum gesamten Körper einfacher.

„Anchong“: Warum ist es unbedingt notwendig, multimodale Daten zu fusionieren (Visuelle + Taktile + Positionsdaten)? Ist die reine visuelle Wahrnehmung nicht ausreichend? Können die großen Modelle nicht bereits die Welt verstehen?

Song Zhiheng: Es ist nicht so, dass die Modelle nicht klug genug sind. Sie haben einfach noch nie die reale Welt "berührt". Feinere Manipulationen erfordern mindestens drei Arten von Informationen: Dreidimensionale visuelle Wahrnehmung, Körperhaltung und taktile Wahrnehmung.

Die dreidimensionale visuelle Wahrnehmung sagt Ihnen, wo sich ein Objekt befindet, und die Körperhaltung zeigt Ihnen, wie die Hand und der Arm dorthin gelangen. Wenn die Hand schließlich mit dem Objekt in Kontakt kommt, ist es oft die taktile Wahrnehmung, die den Erfolg der Manipulation bestimmt: Ob es einen Kontakt gibt, ob das Objekt rutscht, wie viel Kraft angewendet werden soll und wann die Kraft reduziert werden muss. Die taktile Wahrnehmung liefert Informationen über den Kontaktstatus, die Reibung und das Mikroschlupfverhalten. Sie ist das Ende der visuellen Wahrnehmung und der Anfang der Kraftkontrolle.

„Anchong“: Es heißt, Sie können Gesten auch dann erkennen, wenn die Hände mit Handschuhen bedeckt sind. Ist das schwierig? Machen Meta und Apple nicht auch etwas Ähnliches?

Song Zhiheng: Dies ist äußerst schwierig. Meta verwendet fleischfarbene Handschuhe und lässt das Modell diese im Wesentlichen als "dickere Hände" erkennen. Wir können schwarze Handschuhe verwenden, und das Modell kann in der Merkmalsraum erkennen, dass es sich um Hände handelt und die Position präzise analysieren. Apples Gestechnologie ist sehr fortschrittlich, aber die veröffentlichte Methode bezieht sich hauptsächlich auf die Interaktion mit bloßen Händen.

Warum ist dies wichtig? Weil Handschuhe die natürlichste Möglichkeit sind, taktile Informationen zu erfassen. Wenn es nicht möglich ist, das Verständnis der Hände auch bei getragenen Handschuhen stabil durchzuführen, kann die visuelle, taktile und Positionsdaten nicht wirklich fusioniert werden. Das Problem liegt nicht nur in der Erkennung selbst, sondern auch in der Notwendigkeit, dass das multimodale System gleichzeitig Genauigkeit, Latenzzeit und Kosten in Einklang bringt.

„Anchong“: Sie haben von "Millimeter-genauen Annotationen" gesprochen. Wie genau können Sie sein? Wie verhalten sich die Kosten im Vergleich zu herkömmlichen Methoden?

Song Zhiheng: Bei einer so hochdichten und stark verdeckten Aufgabe wie der Erfassung von Handbewegungen ist es für herkömmliche manuelle Annotationen und allgemeine Open - Source - Algorithmen schwierig, gleichzeitig Genauigkeit und Konsistenz zu gew