Die Robotern, die die Bildschirme überfluten, stecken immer noch in der "Datenproduktionslinie".
Text | Zhang Bingbing
Redaktion | A Zhi
Backflips, Tanzen, Boxen, einen Wassermelone mit einem Fußkick zerschlagen … Im vergangenen Jahr haben diese visuell beeindruckenden Roboterbewegungssequenzen ständig in den sozialen Medien die Runde gemacht. Die Branche war erfreut, das Kapital strömte beschleunigt ein, und die Erwartungen der Öffentlichkeit stiegen auf ein Höchstmaß: Reife Robotermodelle scheinen aus dem Labor in die Realität zu rücken.
In den Datentrainingszentren, die als die „Schulen“ der Roboter gelten, herrscht es jedoch viel ruhiger: Datenerfassungsarbeiter halten Bedieneinrichtungen in der Hand und führen die Roboter neben sich bei einfachen Aufgaben an, wie z. B. ein Teil von einem Tisch aufzunehmen, es in ein Werkzeugkasten zu legen und dann den Deckel zu schließen. Die Bewegungen sind langsam und manchmal unterbrochen.
Beijing Humanoid Robot Data Training Center
Dies ist nur der erste Schritt des „Lernens“. Jedes Mal, wenn ein Roboter eine Gruppe von Bewegungen ausführt, wird ein strukturiertes Datensatz erstellt. Nur wenn diese Daten in ausreichender Menge an ein großes Modell zur Training übergeben werden, besteht die Möglichkeit, dass der Roboter ein „Gehirn“ bekommt und damit von der passiven Programmsteuerung wegkommt und zu aktivem Verstehen und Entscheiden übergeht. Mit den Worten eines Brancheninsiders ist dies „der Unterschied zwischen einem Affen und einem Menschen“.
Wir sind mit der Logik von „Daten + Rechenleistung + Algorithmen“ nicht neu. Die großen Sprachmodelle, wie ChatGPT und DeepSeek, die die Welt erobert haben, haben ihre Machbarkeit bewiesen und ein relativ reifes System für Rechenleistung und Algorithmen aufgebaut. Die Herausforderung für Roboter besteht jedoch darin, dass diese Intelligenz aus der digitalen Welt in die physische Welt kommt, und die Daten werden zur größten Hürde.
Die Sprache, Bilder und andere Daten, die von großen Sprachmodellen verwendet werden, existieren im Wesentlichen in der zweidimensionalen digitalen Welt, sind leicht zu erhalten und zu kopieren. Die dreidimensionale physische Welt, der Roboter gegenübersteht, ist jedoch ein hochdimensionaler, kontinuierlicher und multimodaler Zeitraum, der verschiedene Sensorsignale wie Sicht, Klang, Kraft, Drehmoment und Körperhaltung umfasst. Die Schwierigkeit der Datenverarbeitung steigt exponentiell.
Wenn man sagt, dass die Daten, die über Jahre in Internet gesammelt wurden, ausreichend Munition für die Entwicklung von großen Sprachmodellen lieferten, so muss die Datenerfassung und -akkumulation in der physischen Welt fast von Grund auf beginnen.
Dabei wird die vollständige Erfassung der Originalbetriebsdaten von Robotern in der realen physischen Umgebung, die sogenannten „echten Roboter-Daten“, von der Branche als selten und wertvoll angesehen. Im vergangenen Jahr haben sich Roboter-Datenerfassungszentren wie Pilze nach dem Regen als „Infrastruktur“ entwickelt, und die langweiligen, aber wichtigen Datenerfassungsszenarien wie am Anfang des Artikels beschrieben, spielen sich jetzt im ganzen Land ab.
Allerdings bedeutet das Training mit echten Robotern einen enormen Zeit- und Kapitaleinsatz. Die Errichtung von Datencentern ist wie ein Schuss aus der Schleuder, und hinter der Hype ist eine kalte Überlegung erforderlich: Was sind „hochwertige“ Daten? Wie können die trainierten Daten effizient fließen und wiederverwendet werden? Wie kann die Branche vorwärtskommen, bevor die Datenspende überbrückt ist?
Bevor der „neue Bau“ in der Roboterepoche vollständig startet, wird die Erforschung und Beantwortung dieser Fragen entscheiden, ob die „embodiment intelligence“ eine solide industrielle Aufwertung oder ein weiterer überstrapazierter Begriff ist.
I. Datenerfassung: Feinwerkskunst
Im zentralen Trainingsbereich des Beijing Humanoid Robot Data Training Centers können Besucher durch das transparente Glas direkt sehen, wie die Roboter „lernen“. Der Datenerfassungsarbeiter steckt die Hände in die Erfassungseinrichtung, und die Handbewegungen werden an den Roboter neben ihm übertragen, sodass der Roboter eine Zange von einem Tisch aufnimmt, sie in ein Werkzeugkasten legt, dann wieder herausnimmt und wieder hineinlegt, immer wieder.
Einfache Aufgaben wie Greifen, Nehmen, Holen und Ablegen werden in solchen Tischumgebungen in kleinen Szenarien trainiert. Wenn man weiter blickt, wird die Sicht von weißen Schirmen verdeckt. Um Datenkontamination zu vermeiden, ist jeder Bedienbereich in einem separaten Abteil eingerichtet, um Störungen physisch zu isolieren und die Sauberkeit der Daten zu gewährleisten.
Im Szenariotrainingsbereich auf der anderen Seite wird die Szene komplexer. In einem unbemannte Supermarkt sind Waren aufgestellt, in einem Wohnzimmer liegen Bücher herum, in einem Schlafzimmer und einem Badezimmer sind Kleider und Handtücher gestapelt. In dieser hochgradig nachgeahmten Szene können Menschen frei herumgehen, und die Roboter müssen in dieser komplexen, aber realitätsnäheren Umgebung Aufgaben wie das Anordnen von Gegenständen und das Falten von Kleidung ausführen.
Beijing Humanoid Robot Data Training Center - Szenariotrainingsbereich
Von der einfachen Grundbewegungstraining bis zur komplexen Realitätswiedergabe hat man nur ein Ziel: die Massenerfassung von hochwertigen echten Roboter-Daten.
Dies ist auch das Kernziel aller Datencentren.
Aktuell hat die Robotebranche noch keine einheitlichen Datensstandards. Verschiedene Datenerfassungszentren haben oft ihre eigenen Datenausdrucksweisen und Formatanforderungen, und die Wege, um das Ziel zu erreichen, unterscheiden sich bereits von Anfang an.
Der Betreiber des Beijing Humanoid Robot Data Training Centers ist Reeman Intelligent Technology (Beijing) Co., Ltd. Als ein Robotunternehmen, das sich auf die Entwicklung von Roboterarmen konzentriert, legt Reeman bei der Datenbewertung besonders großen Wert auf die Anforderungen an die Hardware.
Ein zuständiger Mitarbeiter von Reeman erklärt, dass das Datencenter bei der Hardwareanforderung eine hochpräzise Kalibrierung jedes Hardwarekörpers erfordert, einschließlich der absoluten Bewegungsgenauigkeit und der Kameraparameter. Alle Roboter sind mit hochpräzisen Sensoren ausgestattet, die bis zu 57 Dimensionen an Zustandsdaten erfassen können.
Eine weitere Hardwareherausforderung kommt von der Zeitraumausrichtung. Genauer gesagt, hat die Abtastfrequenz der Kameras, die bei der Datenerfassung verwendet werden, normalerweise 30 Hz, d. h. 30 Bilder pro Sekunde werden aufgenommen, und der Zeitraum zwischen den Bildern beträgt etwa 33 Millisekunden. Wenn die Zeit nicht ausgerichtet ist, kann diese 33-Millisekunden-Differenz dazu führen, dass der Gelenkencoder, die Kamera und der Kraftsensor „verschiedene Momente“ der Welt erfassen.
Das Modelltraining hängt von einer strengen kausalen Beziehung ab, und eine Millisekunden-Ungleichzeitigkeit kann zu schwerwiegenden Fehlern führen. Laut Angaben von Reeman wird bei der Datenerfassung eine Hardware-Synchronisationsausrichtungsstrategie eingesetzt, um sicherzustellen, dass die Sensor- und Kameradaten alle gemäß dem tatsächlichen physikalischen Moment erfasst werden, mit einem Fehler von weniger als 1 Millisekunde.
Basierend auf der hochpräzisen Hardwarekalibrierung und der überzeitlichen Ausrichtung wird durch ein Diversitätsmatrizen-System die Vielfalt der Szenariogegenstände und die Verallgemeinerung der Roboterposition und -haltung erreicht, um zu vermeiden, dass das Modell durch Datenanpassung schlechter wird. Erst nach einer strengen Überprüfung der Datenvertrauenswürdigkeit ist die Erfassung einer hochwertigen echten Roboter-Daten abgeschlossen.
Der zuständige Mitarbeiter von Reeman sagt, dass ein Roboter, der in Haushalte kommen kann, stabile und zuverlässige physische Gelenke haben muss, zugleich einfach zu bedienen sein muss und die maximale Tragfähigkeit bei minimalem Volumen haben muss. Auf der Ebene der Künstlichen Intelligenz sind die Daten dimensionen von entscheidender Bedeutung. „Wir glauben, dass echte Roboter-Daten die letzte Hürde für die Einführung von Robotern in Haushalte sind, daher bieten wir konsequent solche Datenassets an.“
Derzeit kann das Beijing Humanoid Robot Data Training Center eine Massenproduktion erreichen und etwa 60.000 Datensätze pro Tag generieren, die 16 Teilbereiche in vier großen Bereichen wie industrielle Fertigung, intelligente Haushalte, Pflege- und Gesundheitsdienste sowie 5G-Integration abdecken.
II. Die Kluft zwischen Datendefizit und Datenheterogenität
Daten der Technologiemarkt-Forschungsinstitution Interact Analysis zeigen, dass bis Ende 2025 in China mehr als 50 nationale oder provinzielle/städtische Humanoid Robot Data Erfassung und Training Zentren in Betrieb oder in Planung sind, wobei mehr als 50 % der Datenerfassungszentren bereits 2025 in Betrieb genommen wurden.
Unter Bezugnahme auf das Beijing Humanoid Robot Data Training Center hat die jährliche Produktion von echten Roboter-Daten bereits die Millionenskalen erreicht. Wenn man grob rechnet, könnte die jährliche Datenerfassungskapazität aller derzeitigen Datencentren, wenn sie alle in Betrieb wären, mehrere Milliarden Datensätze erreichen.
Diese scheinbar enorme Datenversorgung erscheint im Vergleich zu der „Intelligenz“, die Roboter benötigen, immer noch wie ein Tropfen auf den heißen Stein.
Laut einer konservativen Schätzung des Roboterdatenanbieters Mite Technology benötigt man etwa 1.000 - 5.000 Datensätze, um einen Roboter ein einzelnes Handeln beizubringen, wenn das Embodiment Intelligence - Großmodell gut genug und die Datenqualität hoch genug ist. Um einen Roboter eine Aufgabe, die aus mehreren Handlungen besteht, beizubringen, braucht man etwa 10.000 - 20.000 Datensätze. Um einen Roboter 80 % der menschlichen Arbeit in einem bestimmten vertikalen Bereich ausführen zu lassen, sind mindestens 100 Millionen Datensätze erforderlich. Wenn man die Embodiment Intelligence auf alle Branchen erweitern will, benötigt man mindestens Billionen von Datensätzen, was einem Datendefizit von 4 - 5 Größenordnungen entspricht.
Die größere Kluft liegt in der Datenheterogenität. Da verschiedene Hersteller und Roboterformen unterschiedliche Hardwareentwürfe, Sensorausstattungen und Softwareprotokolle haben, sind die erfassten Bewegungs-, Kraft- und Sichtdaten „sprachlich nicht verständlich“ füreinander. Die Datenresultate, die auf einem Roboter trainiert wurden, funktionieren möglicherweise nicht auf einem anderen Roboter.
Das bedeutet, dass die Datenresultate, die in verschiedenen Datencentern trainiert wurden, kaum einen additiven Effekt von 1 + 1 = 2 erzielen können.
Bevor ein einheitlicher Branchenstandard erscheint, suchen die Datencentren auch nach verschiedenen Lösungsansätzen.
Einer ist die „Maskierung der Unterschiede“: Man verwendet Roboterarme oder Robotermodelle mit hoher Marktanteil für die Datentraining, um von der Hardwareherkunft her die Kompatibilitätsprobleme zu vermeiden und eine breitere Anwendung der Daten zu erreichen, wie z. B. das oben erwähnte Beijing Humanoid Robot Data Training Center.
Ein anderer Ansatz ist die „Aufnahme der Unterschiede“: Man führt aktiv ein heterogenes Training durch. Im Shanghai Zhangjiang hat das National-Local Joint Innovation Center for Humanoid Robots (im Folgenden „National-Local Center“) ein neues Verfahren zur Erstellung eines Embodiment Intelligence - Datensatzes für heterogene Humanoid Roboter entwickelt, mit dem Ziel, den größten Datensatz für Embodiment Intelligence von heterogenen Humanoid Robotern zu schaffen.
Hier werden Roboter von verschiedenen Herstellern in einem gemeinsamen physischen Raum zusammen betrieben. Jiang Lei, der Chefwissenschaftler des National-Local Centers, sagte in einem Interview mit der Medien, dass „wenn man heterogene Roboter von verschiedenen Herstellern in einem gemeinsamen Raum betreibt, kann die Künstliche Intelligenz erkennen, dass sie in einer vielfältigen physischen Welt lebt, und dadurch eine objektive Wahrnehmung entwickeln und die Fähigkeit, zwischen Recht und Unrecht zu unterscheiden, erwerben.“
Der dritte technische Weg ist es, die Unterschiede direkt zu „umgehen“ und nach allgemeineren und universelleren Daten zu suchen. Im Gegensatz zu den Daten, die von Hardware wie Gelenksensoren erfasst werden, sind menschliche Videodaten für Roboter relativ universell. Man kann die Körperhaltung aus Videodaten extrahieren und sie auf die Bewegungsbahn des Roboters abbilden, um das Großmodell zu trainieren, ohne die Hürde der Roboterhauptkörper zu überwinden.
Beijing Humanoid Robot Data Training Center - Visuelle Bewegungsaufzeichnungsprojekt
Ein radikaleres Konzept ist es, den Hauptkörper ganz zu ignorieren und in die virtuelle Welt zu gehen. In einer virtuellen digitalen Umgebung können durch eine physikalische Engine und Programme kostengünstig Massendaten generiert werden, die dann auf echte Roboter angewendet werden können, um Sim2Real zu erreichen. Die extreme Komplexität der physischen Welt macht es jedoch grundsätzlich schwierig, dass die Simulationsdaten die gewünschte Genauigkeit und Verallgemeinerung erreichen.
„Wir hoffen, ein Gleichgewicht zwischen Realität und Simulation zu finden und die Vorteile beider zu nutzen.“ Der CEO von Mite Technology hat sein Real2Sim2Real - Datenerfassungsmuster vorgestellt: Vor der virtuellen Umgebung wird ein „Human Doing Video“ als Lernmuster für den Roboter hinzugefügt. „Wir rekonstruieren die 2D - Videodaten von menschlichen Handlungen aus der realen Welt in 3D, reduzieren die 3D - Körperhaltung des Menschen durch Simulation und übertragen die 3D - Körperhaltung auf den Roboter, daher nennen wir es Real2Sim2Real.“
Laut Angaben soll Mite Technology mit dieser Methode die Kosten pro Datensatz von derzeit mehreren Dutzend Yuan auf ein paar Cent senken und schnell billige Erfassungseinrichtungen in alle Branchen verteilen, um Massendaten zu erhalten.
III. Optimierung während der Arbeit
Obwohl verschiedene technische Wege wie die Kombination von Realität und Virtuosität noch in der Erforschung sind, ist ein Fakt sicher: Echte Roboter-Daten sind, egal wie groß ihr Anteil ist,