StartseiteArtikel

Drei Fragen zum "Jahr der Embodied Data"

具身研习社2026-03-30 16:11
Heap-Größe: Ist es ein Wendepunkt oder die Ästhetik der Gewalt?

Das Jahr 2026 als das erste Jahr der Daten hat sich zu einem der wenigen Konsenspunkte im Bereich der Embodied Intelligence (eingebettete Künstliche Intelligenz) entwickelt. Dieser Konsens beruht nicht auf leeren Versprechungen, sondern ist eine notwendige Folge der Realität, dass in der praktischen Anwendung der Embodied Intelligence in der physischen Welt die Algorithmen nicht funktionieren und die Szenarien nicht universell anwendbar sind.

Interessanterweise war das "Erstjahr der Massenproduktion" im Jahr 2025 eher ein Slogan der Hersteller von Roboter-Körpern und ein Indikator für die vorläufigen Erfolge auf dem Markt. Im Gegensatz dazu ist das "Erstjahr der Daten" im Jahr 2026 eine strukturelle Herausforderung, die sowohl die Hersteller von Roboter-Körpern als auch die Anbieter von KI-Modellen lösen müssen. Ein wesentlicher Unterschied besteht darin, dass die Hersteller von Roboter-Körpern im Jahr 2025 noch Raum für technologische Verbesserungen und Kapazitätssteigerungen hatten, selbst wenn sie noch keine Massenproduktion erreicht hatten. Im Jahr 2026 hingegen werden die Hersteller, die keine differenzierten Datenlösungen entwickelt haben und sich weiterhin am Rande des Skalierungsgesetzes (Scaling Law) befinden, die Geduld der Öffentlichkeit allmählich verlieren.

Wir können daher beobachten, dass ein Wettlauf um Datenaufnahmeeinrichtungen bereits begonnen hat. Von der massenhaften Aufnahme von Daten aus realen Robotern über VR und Handgriffe bis hin zu den datenaufnehmenden Geräten UMI und Ego ohne physischen Roboter und schließlich zu Lösungen für die Datenaufnahme aus realen Robotern über Exoskelette - diese Entwicklung hat einen neuen Weg zwischen der Realität und der Simulation geebnet. Dies zeigt indirekt, dass die Fragen, welche Daten von der Branche anerkannt werden und welche Daten die Branche tatsächlich benötigt, bisher noch nicht zufriedenstellend beantwortet wurden.

Im Hinblick auf die Branchenentwicklung hat der Wettlauf um Datenaufnahmeeinrichtungen dazu geführt, dass die Hersteller von Roboter-Körpern eigene Datenaufnahmeteams gründen und die Anbieter von KI-Modellen auf die Entwicklung von hybriden Datengenerierungs-Engines setzen. Alle versuchen, die "Datenhunger"-Situation durch differenzierte Strategien zu verbessern und ihre eigenen Datenbarrieren zu stärken.

Aber kann diese Euphorie wirklich den Datenhunger stillen? Sind die Hersteller, die sich vollständig auf die Daten konzentrieren, einfach Mitläufer, die von der Branchenangst getrieben werden, oder sind es tatsächlich Innovatoren, die die zugrunde liegenden Probleme erkannt und gelöst haben?

Wir lassen die allseits bekannten Datenprobleme einmal außen vor. Aus den jüngsten Entwicklungen geht hervor, dass die 270.000 Stunden an Daten von Generalist Ende 2025 die Embodied Intelligence-Welt in Aufruhr versetzt haben. Es scheint, dass das Moment des Skalierungsgesetzes gekommen ist, aber es gibt auch Stimmen in der Branche, die diese Entwicklung als eine Art "Gewaltästhetik" betrachten.

Schließlich ist die Größe und Vielfalt der Daten nur ein Grund für den Datenhunger. Die Präzision und Qualität der Daten sind ebenfalls entscheidend. Die Essenz des Datenhungers liegt nicht darin, dass es an Daten mangelt, sondern dass es an nützlichen Daten fehlt. Dies ist der Schlüssel zum ersten Jahr der Embodied-Daten: Es geht nicht darum, die Datenmenge zu erhöhen, sondern den richtigen Weg zu finden.

Wenn wir die Angstgefühle einmal beiseite legen, tauchen die eigentlichen Kernfragen der Embodied-Intelligence-Daten erst auf.

Alle sprechen von einem Mangel an Daten, aber welche Art von Daten fehlt es wirklich?

Ehrlich gesagt ist vielen Menschen noch nicht bewusst, dass "Daten für die Szenarien gedacht sind".

Viele haben einen falschen Eindruck von der Datenpyramide. Sie denken, dass die Daten aus realen Robotern am schwersten zu bekommen, aber am nützlichsten sind. Tatsächlich ist die Datenpyramide dynamisch und hängt von den Szenarien und den zu lösenden Problemen ab.

Wie Wang Xingxing, der sich kurz vor der IPO befindet, auf dem ersten Technologiegipfel von Siemens sagte: "Unsere Firma und die Branche versuchen, soweit möglich, die Simulation und das Simulations-Training zu nutzen, weil es schneller und kostengünstiger ist und wir einige Parameter anpassen können." Dies ist bei menschlichenoidalen Robotern, die laufen, rennen oder boxen, üblich. Er gestand auch, dass "bei den 'manipulativen' Bewegungen der Roboter die Simulation noch nicht gut genug ist und weltweit immer noch auf die Datenerfassung von Menschen angewiesen sind", wobei die Datenerfassung von Menschen auch mit Problemen wie begrenzten Umgebungen und hohen Kosten verbunden ist.

Aus Wang Xingxings Worten kann man seine Einstellung zu den Daten erkennen. Er geht immer von der "Verfügbarkeit" der Daten aus und sucht die praktische Rückmeldung aus den Szenarien. Um zu wissen, welche Art von Daten fehlt, müssen die Unternehmen nicht im Labor raten, sondern in realen Szenarien suchen.

Betrachtet man die Szenarien, können sowohl die Internetdaten als auch die riesigen Datenmengen aus einer Kombination von wenigen realen Robotern und Simulationen die Embodied-Intelligence-Roboter dazu befähigen, "große und offene" Bewegungen auszuführen. Diese Daten haben es den Robotern ermöglicht, aus dem Labor in die physische Welt zu gelangen, aber es ist noch ein weiter Weg bis zur gewünschten Produktivität.

Die Internet-Videodaten fehlen an Kraft- und Tastempfindungen, und die Simulationsdaten können die physikalischen Eigenschaften unterschiedlicher Materialien (z. B. die Weichheit von Stoffen oder die Glätte von Metall) nicht wiedergeben. Selbst die wenigen Daten aus realen Robotern konzentrieren sich hauptsächlich auf die Bewegung des Roboterkörpers und nicht auf die Details der Endeffektor-Manipulation. In den meisten produktiven Szenarien wie der Haushaltsdienstleistung, der Logistik und der industriellen Fertigung werden jedoch "Körperbewegung + umfangreiche Endeffektor-Manipulation" benötigt. Mit anderen Worten, die Kernanforderungen an die Daten heute können auf den Endeffektor, insbesondere auf die dexteren Hände mit komplexen "Fingerfertigkeiten", fokussiert werden.

Die Roboter von Tesla und Figure, die in den USA am meisten beachtet werden, haben gezeigt, dass die dexteren Hände bei der tatsächlichen Implementierung nicht sehr aktiv sind. Viele von ihnen haben zwar Hände, aber funktionieren eher wie Greifer.

Leider können diese Daten nicht durch "gewaltige Datenerfassung" gewonnen werden. Im Gegensatz zu den Daten für allgemeine Szenarien haben die Daten für dexteren Hände eine starke Szenarienspezifität. Bei der "Greif"-Bewegung beispielsweise ist die Kraftkontrollkurve beim Greifen von Glasgegenständen völlig anders als beim Greifen von Gummiteilen. Bei der "Dreh"-Bewegung gibt es einen wesentlichen Unterschied zwischen der Bedienung eines manuellen Schraubendrehers und eines elektrischen Schraubendrehers. Dies bedeutet, dass die Hersteller in die konkreten Szenarien eintauchen müssen und "zielgerichtete Daten" über eine Reihe von Datenerfassungseinrichtungen sammeln müssen. Dies ist auch der Hauptgrund für die Seltenheit dieser Daten.

Dieser Wettlauf um die Datenkompensation ist im Wesentlichen eine Umstellung von der "Ansammlung von generalisierten Daten" hin zur "intensiven Erforschung von szenariospezifischen, feingrained Daten". Die Dicke der Datenreserve für dexteren Hände wird direkt die Produktivitätsgrenze der Roboter bestimmen.

Wird es eine einzige Lösung im Wettlauf um die Datenaufnahme geben?

Die Branche hat inzwischen die Wichtigkeit der Datenerfassung für dexteren Hände erkannt. Die nächste Frage ist, wie man genauere Daten sammeln kann.

Der Wettlauf um die Datenaufnahmeeinrichtungen ist bereits im Gange. Neben den noch expandierenden Anbietern von Datenerfassungseinrichtungen für reale Roboter haben UMI, Ego und Exoskelette sich hervorgetan und versuchen, die Probleme mit kostengünstigen und effizienten Lösungen zu lösen.

Derzeit konzentriert sich UMI hauptsächlich auf die Datenerfassung für die Manipulation am Ende des Roboterarms. Dadurch kann es zwar die Koordinationsbewegungen des gesamten Roboterkörpers abdecken, aber die meisten Endeffektoren sind Zwei-Finger-Greifer, die sich auf Greifaufgaben konzentrieren. Dies schränkt seine Anwendbarkeit in Szenarien mit ganzkörperlicher Interaktion ein.

Für kleine und mittlere Unternehmen, die sich auf eine einzige Manipulationsaufgabe konzentrieren, ist UMI dennoch eine der besten Lösungen, die das Gleichgewicht zwischen Kosten und Genauigkeit herstellt. Daraus hat sich die Lösung Ego entwickelt, die die Koordinationsbewegungen des gesamten Roboterkörpers löst. Doch Ego hat auch das Problem, dass es auf eine starke algorithmische Rückend-Infrastruktur angewiesen ist, um die mehrdimensionale Rekonstruktion und die Datenausrichtung durchzuführen. Beide Geräte neigen dazu, in der Datenerfassung eher dazu, riesige Datenmengen für das Pre-Training bereitzustellen, was später zu Problemen mit der Datenqualität führt und hohe Kosten verursacht.

Zurzeit beginnt sich UMI und Ego stark zu verbinden. Unternehmen wie Luming Robotics und Jianzhi Robotics haben nacheinander nach UMI Ego-Datenerfassungseinrichtungen entwickelt, die sich gegenseitig unterstützen und nutzen lassen. Die Branche betrachtet die von ihnen gesammelten Daten als komplementäre Informationsquellen.

Aber selbst so ist es noch nicht gewährleistet, dass das Problem der dexteren Manipulation gelöst werden kann. Einerseits ist UMI auf die Greiferform beschränkt, andererseits fehlen bei Ego und ähnlichen Geräten, die auf menschliche Daten basieren, immer noch die submillimetergenauen Fingerpositionen und Tastdaten. Dies macht es für UMI, Ego und ihre Kombinationen schwierig, den Maschinen feine Manipulationsfähigkeiten beizubringen.

Deshalb werden wir mehr neue Hardware für die Datenerfassung am "dexteren Ende" sehen. Beispielsweise hat BeingBeyond kürzlich das U1, das weltweit erste Real DexUMI, vorgestellt. Es ist stark von der UMI-Paradigma beeinflusst und integriert die Hardware der dexteren Hand, die Schnittstelle für die Interaktion mit dem Roboter, die dynamische Verfolgung und die Tastsensibilität in einem System, so dass man mit einer Hand die andere Hand natürlich steuern kann. Dazu gehört auch das dexteres intelligente DexCap-Exoskelett-Datenerfassungssystem, das die vollständige dynamische Erfassung des menschlichen Oberkörpers und des Beckens ermöglicht. Zusätzlich zur herkömmlichen visuellen Fernsteuerung bietet es eine Vibrations-Kraftempfindung am Handende, was eine nützliche und zuverlässige Datenquelle für die Entwicklung von dexteren Handprodukten darstellt.

Natürlich ist die dexteren Intelligenz keine bloße Theorie. Schon im ersten Halbjahr 2025, als die Branche noch nicht die Wichtigkeit der Daten für die Endeffektor-Manipulation erkannt hatte, hat es mit dem Exoskelett-Ansatz die massenhafte Datenerfassung durchgeführt. Nach fast einem Jahr an technologischen Verbesserungen, während UMI und Ego in der Branche viel Aufmerksamkeit erregten, ist es nicht "technologische Archäologie", wenn man über dieses Gerät spricht. Es zeigt, dass es die technologische Entwicklung überdauert hat und immer noch eine notwendige Rolle in der modernen Datenerfassung spielt, was sich in der Branchenentwicklung widerspiegelt.

Darüber hinaus gibt es derzeit eine Vielzahl von Technologien für die Datenerfassung am Endeffektor. Neben UMI, Ego und Exoskeletten gehören dazu auch optische Bewegungsaufzeichnungssysteme, Inertial-Bewegungsaufzeichnungssysteme und Datengloves mit IMU/Quanten-Sensoren/Faseroptik/Elastischen Sensoren. Diese Gloves sind jedoch eher für mittlere bis niedrige Genauigkeit und schwache Magnetfelder geeignet, und die Kosten für die Datenverarbeitung sind sehr hoch. Unter den gegenwärtigen technologischen Bedingungen ist ihr Potenzial für die Massenproduktion begrenzt.

Zusammenfassend lässt sich sagen, dass das Ziel dieses Wettlaufs um die Datenaufnahmeeinrichtungen nie darin besteht, "ein Gerät durch ein anderes zu ersetzen", sondern darin, "welches Gerät sich am besten in das kooperative Ökosystem einfügen kann". Exoskelette haben dank ihrer Fähigkeit, Kraft- und Tastempfindungen zu replizieren, ihrer langfristigen Stabilität und der Standardisierung der Daten eine zentrale Rolle bei der feingraineden Datenerfassung für dexteren Hände. UMI und Ego hingegen übernehmen die Rolle der massenhaften Datenakkumulation dank ihrer Effizienz und Kostengünstigkeit. Die verschiedenen Datengloves befinden sich in einer Phase der technologischen Entwicklung.

Es muss betont werden, dass die Geräte und die Daten in den meisten Fällen nicht "exklusiv" sind. Im Gegenteil, es sollte versucht werden, sie effektiv zu kombinieren.

Wer sollte die Macht über die Daten haben?

Ein interessantes Phänomen ist, dass sich die Branche der Embodied Intelligence allmählich vervollständigt. Früher war die Branche grob in die Hersteller von Roboter-Körpern und die Anbieter von KI-Modellen aufgeteilt. Jetzt gibt es auch Unicorns, die sich auf die Daten spezialisiert haben. Plötzlich hat jeder auf dem Markt Daten und will die Macht übernehmen.

Aber wer sollte die Macht über die Daten haben?

Die Antwort ist: Diejenigen, die die Hardware verstehen. Egal, ob es sich um Hersteller von Roboter-Körpern, Anbieter von KI-Modellen oder Datenhersteller handelt, wer die Hardware für die Datenerfassung besser versteht, hat die Macht.

Die Datenerfassung ist nicht einfach das "Aufzeichnen von Bewegungen". Es geht darum, die physischen Manipulationen in der realen Welt präzise in nutzbare digitale Assets umzuwandeln. Dies erfordert die Unterstützung von drei Kernaspekten der Hardware: die Daten-Dimension, die Datenqualität und die Datenverarbeitungskosten.

Die Daten-Dimension erfordert, dass die erfassten Dateninformationen ausreichend reichhaltig sind. Wenn die Daten-Dimension nicht reichhaltig genug ist, muss das Modell in der Trainingsphase viel "raten", und es kann nicht konvergieren. Die Datenqualität bestimmt in gewissem Maße, ob das Modell mit "rohen" oder "feinen" Daten gefüttert wird. Wenn das Modell mit "rohen" Daten gefüttert wird, wird es "grobschlächtig" und kann keine feinen Manipulationen durchführen.

Schließlich sind die Datenverarbeitungskosten, auch "Gesamtverarbeitungskosten" genannt, die Kosten für die Infrastruktur vor und nach der Datenerfassung, die Personalausbildung, die Datenbereinigung und die algorithmische Abbildung - eine Art "industrielle Produktionslinie". Diese Faktoren bestimmen gemeinsam, ob die Datenerfassung erfolgreich ist.

Derzeit haben viele Datenerfassungseinrichtungen diese Aspekte noch nicht vollständig beherrscht. Aber es gibt auch einige Hersteller und Geräte, deren Konzept die "Daten-Dimension, -Qualität und -Verarbeitungskosten" berücksichtigt.