StartseiteArtikel

Die Expansion des Robotersektors beschleunigt sich, doch dieser Abschnitt kann nicht mithalten.

36氪的朋友们2026-02-02 12:01
Die Anwendungsgebiete von humanoiden Robotern erweitern sich, und Daten werden zum entscheidenden Engpass.

Seitdem Teslas Optimus in die Fabrik kam und die Mode der Arbeit mit humanoide Robotern antrat, bis hin zur Einbindung von Hirn-Computer-Schnittstellen-Technologie in Roboter zur Unterstützung bei Rehabilitationstraining und schließlich zum ersten persönlichen Roboter Q1 von Shangwei Qiyuan, der die Möglichkeit der "Neuentwicklung" für Forscher, Künstler und Privatnutzer bietet. Wenn man sagt, dass humanoide Roboter in den letzten Jahren hauptsächlich im Labor und auf der Bühne blieben, so erweitern sie heute ihre Anwendungsgrenzen und treten in Szenarien mit kontinuierlichen "Arbeitsaufgaben" ein.

Der persönliche Roboter Q1 von Shangwei Qiyuan ist nur 80 cm groß und erfüllt die "Neuentwicklungs"-Bedürfnisse von Forschern, Künstlern und Privatnutzer.

Die Daten der Marktforschungsfirma IDC zeigen, dass der globale Markt für humanoide Roboter 2025 in eine Beschleunigungsphase eintritt. Die Anwendungsnachfrage konzentriert sich hauptsächlich auf Bereiche wie Unterhaltung und Show, Forschung und Lehre, Datenerfassung, Führung und Verkaufsdienstleistung, industrielle Fertigung sowie Lagerhaltung und Logistik.

Aber mit der Überführung von Prototypen zu massenhaften Anwendungen von Robotern taucht ein unausweichliches Problem auf - Daten werden zur Hemmschuh für die weitere Entwicklung der Embodied Intelligence.

Die Szenarien erweitern sich, aber die Daten hinken weit hinterher

Ähnlich wie bei autonomem Fahren und allgemeinen großen Modellen ist die Embodied Intelligence stark datengesteuert. Im Unterschied zu diesen beiden benötigen Roboter nicht nur Daten zum Sehen und Sprechen, sondern auch die vollständige Aufzeichnung des Prozesses von Kontakt, Kraftausübung, Zusammenarbeit und Misserfolg in der realen physischen Welt.

Die Realität ist, dass solche Daten äußerst rar sind.

Einerseits ist die Datenerfassung von realen Robotern teuer und zeitaufwändig. Jedes Greifen, Einfügen, Transportieren und die Zusammenarbeit beider Arme bedeuten Verschleiß der Hardware, personellen Einsatz und komplexe Annotationen. Andererseits können offene Videos und Simulationsdaten die echten Handlungsabsichten aus erster Person nicht widerspiegeln und auch nicht die wichtigen physikalischen Dimensionen wie Haptik und Kontaktkraft abdecken.

"Wenn Roboter nur Videos anschauen, lernen sie niemals, wie man Kraft anwendet." Ein Forscher auf dem Gebiet der Embodied Intelligence in Shanghai sagte direkt zu einem Reporter der "Science and Technology Innovation Board Daily". Das bedeutet auch, dass im Kontext von ähnlichen Leistungseigenschaften und Hardwarelösungen diejenigen, die zuerst hochwertige und generalisierbare reale Interaktionsdaten sammeln können, eine bessere Chance haben, die Macht über Modelle und Ökosysteme in der nächsten Phase zu erlangen.

Vor diesem Hintergrund nehmen die Zusammenarbeit um Daten, Schnittstellen und Standards deutlich zu. In letzter Zeit haben mehrere Robotunternehmen und Forschungsinstitute in Shanghai Datenbanken entwickelt oder die Entwicklung vorangetrieben.

Das National and Local Joint Innovation Center for Humanoid Robots (im Folgenden "National and Local Center") hat zusammen mit Shanghai Weiti Technology Co., Ltd. den weltweit ersten großen multimodalen Datensatz für visuelle und taktile Wahrnehmung über verschiedene Roboterkörper - Baihu-VTouch - veröffentlicht. Dieser Datensatz umfasst multimodale Informationen wie Daten von visuellen und taktilen Sensoren, RGB-D-Daten und Gelenkstellungen. Er deckt verschiedene Roboterkonfigurationen wie Rad-Arm-Roboter, zweibeinige Roboter und Handgeräte ab. Die Datenmenge beträgt über 60.000 Minuten. Innerhalb der Branche wird er als einer der weltweit größten und vollständigsten Datensätze für reale visuelle und taktile Interaktionen angesehen.

Im Trainingsbereich des National and Local Centers führen täglich mehrere Roboter gleichzeitig verschiedene reale Aufgaben aus.

Trainingsbereich des National and Local Centers: Echtzeit-Operationen in typischen Szenarien

Laut Angaben des National and Local Centers unterscheidet sich Baihu-VTouch von der früheren Methode der "Einzelaufgabe und manuellen Datenerfassung". Es führt den Ansatz des "Matrix-Aufgabenbaus" ein und wird aus drei Dimensionen - die Struktur der Zusammenarbeit beider Arme, die Art der atomaren Operationen und die Art der Kontakt- und taktilen Wahrnehmung - systematisch entworfen. Es deckt vier Szenarien - Haushalt, Industrie, Gastronomie und Spezialarbeiten - und über 380 Arten von Aufgaben ab.

"Größere Datenmengen sind nicht immer besser"

Bei einem Interview mit Medien wie der "Science and Technology Innovation Board Daily" kürzlich gab Gu Jie, CEO von Fourier Intelligence, eine eher zurückhaltende Einschätzung über die Wichtigkeit von Daten ab.

Gu Jie sagte, dass Daten von entscheidender Bedeutung für die zukünftige Generalisierungsfähigkeit von Robotern seien, was in der Entwicklung des autonomen Fahrens und früher großer Modelle wiederholt bewiesen worden sei. Aber er betonte auch, dass nicht die Menge, sondern die Qualität, die Struktur und die Herkunft der Daten von Schlüsselwichtigkeit seien.

"Es macht manchmal nicht viel Sinn, eine Aufgabe tausend oder sogar zehntausend Mal zu wiederholen. Das wirklich Wertvolle ist der Wechsel zwischen verschiedenen Aufgaben und die vollständige Aufzeichnung von Erfolg und Misserfolg." So führte Gu Jie aus.

Er meinte weiter, dass die Datenerfassung von Robotern nicht nur auf ihre eigenen Messungen basieren sollte. Obwohl die zahlreichen offenen Videos im Internet als Basis dienen können, fehlt ihnen die Perspektive aus erster Person, so dass sie die echten menschlichen Handlungsabsichten nicht widerspiegeln können. Deshalb sind auch eine große Menge von Daten über menschliche Bewegungen und Handlungen aus erster Person erforderlich, die mit den Daten der Roboter in der realen Welt kombiniert werden müssen.

Nach Fourier Intelligences Vorstellung sollte die ideale Datenstruktur aus drei Teilen bestehen: offene Videos als Basis, Daten aus menschlichen Interaktionen aus erster Person als Kernergänzung und eine kleine aber hochwertige Menge von Daten, die direkt von Robotern erfasst werden. Selbst wenn der Anteil letzterer gering ist, könnte ihre absolute Menge in Zukunft auf die Größenordnung von Hunderten von Millionen steigen.

Der Fourier GR-3-Roboter bei der Rehabilitationstraining für Hand und Auge

Der Wettbewerb um Daten erstreckt sich immer mehr in tiefere Ebenen.

Einerseits ermöglichen die fortschreitende Entwicklung von Technologien wie multimodalen Sensoren und der Integration von visueller und taktiler Wahrnehmung die Erfassung von Daten aus realen physischen Interaktionen. Andererseits steigt die Nachfrage nach der Koordination von Datenformaten, Annotationssystemen und Trainingsstandards rapide an.

In letzter Zeit haben Kupasi und Tashizhihang eine strategische Partnerschaft angekündigt und sich darauf geeinigt, die Standardisierung von Embodied-Daten voranzutreiben. Fourier Intelligence hat auch zusammen mit mehreren Krankenhäusern, Hochschulen und Forschungsinstituten das "Joint Innovation Project for Brain-Machine Embodied Data Engine" ins Leben gerufen, um in Szenarien wie der Rehabilitation die Datenverkettung zwischen Hirn-Computer-Schnittstellen und Embodied Intelligence herzustellen.

Dieser Artikel stammt aus dem WeChat-Account "Science and Technology Innovation Board Daily". Verfasser: Zhang Yangyang. Veröffentlicht von 36Kr mit Genehmigung.