Gespräch mit Qiongche und Luming: Die Premiere von UMI, der Moment der Gleichberechtigung für datenbasierte Embodied AI
Autor: Peng Kunfang
Redakteur: Lü Xinyi
Veröffentlichung: Embodied Learning Society
Die Datenschwierigkeiten bei der Embodied Intelligence sind noch nicht gelöst, aber glücklicherweise haben wir den Moment der "Datengleichberechtigung" erreicht.
Bisher waren die Daten hauptsächlich durch die "Knappheit" eingeschränkt. Millionenhour-Datensätze befinden sich noch in der "Durststillung durch die Vorstellung von Pflaumen" -Phase und würden möglicherweise nicht einmal den Durst stillen. Im Wesentlichen liegt es daran, dass die aktuelle Datenmenge noch weit von einem idealen und praktikablen Zustand entfernt ist. Insbesondere die qualitativ höherwertigen echten Geräte-Daten, die sich an der Spitze der Datenpyramide befinden, haben strukturelle Einschränkungen bei der Fernbedienungssammlung: Hohe Kosten für die Roboterbasis, komplexe Installation, niedrige Sammeleffizienz und die Daten sind von der Konfiguration der Roboterbasis abhängig.
Bei der Fernbedienung gibt es deutliche Mengenschwellen, während die Simulationsdaten mit Mengenvorteilen einen unüberbrückbaren Embodiment Gap haben.
Mit einer nicht ganz exakten Metapher ausgedrückt: Die Daten sind wie eine Hungersnot. Die echten Geräte- und die Simulationsroute haben zwar jeweils etwas, aber zusammen können sie kein vollständiges Mahlzeitenangebot zusammensetzen.
Heute ändert sich diese Situation.
Ein Weg zur massenhaften, vielfältigen und hochwertigen Sammlung echter Daten ist tatsächlich gegangen. Er hat einen kleineren GAP als Simulationsdaten und einen deutlichen Mengenvorteil gegenüber den echten Geräte-Fernbedienungsdaten: UMI (Universal Manipulation Interface, universelle Bedienungsschnittstelle).
Einfach ausgedrückt, ist es ein kostengünstiges Datensammelkonzept, das mithilfe einer Handgreifzange, einer Kamera und eines Positions- und Orientierungsschätzalgorithmus menschliche Gesten direkt in lernbare Bahnen für Roboter umwandelt. Dieses neue Paradigma löst eine Reihe von Problemen, wie hohe Kosten und niedrige Effizienz bei der echten Geräte-Datensammlung, die Nicht-Wiederverwendbarkeit von Daten zwischen verschiedenen Robotern und die begrenzte Vielfalt der Daten.
"Im Jahr 2026 hoffen wir, eine Kapazität zur Erzeugung von 1 Million Stunden echten Geräte-Daten für Embodied Intelligence aufzubauen." sagte Dr. Ding Yan, Mit-CTO von Luming Robotics, in einem Gespräch. Dr. Lü Jun, Produktverantwortlicher von Qiongche Intelligence's RoboPocket, sagte auch, dass sie bereits kleinere Tests zur Crowdsourcing-Datensammlung durchgeführt haben. "Die Zeit der ganzheitlichen Datensammlung könnte früher kommen, als wir denken."
Betrachtet man das Paradigma selbst, macht die UMI durch niedrigere Hardwarekosten und höhere Produktivität die Daten nicht mehr zu einem teuren und knappen Ressourcen gut und auch nicht mehr zu einem angeborenen Vorteil nur einiger führender Unternehmen. Betrachtet man die Ökosystem, ermöglicht die Besonderheit des UMI-Paradigmas, dass die Datensammlung nicht mehr an Datensammelfabriken gebunden ist, sondern in die reale physische Welt hinausgeht und mehr reale Aufgaben widerspiegelt.
Die UMI eröffnet auf gewisse Weise eine "Datengleichberechtigung".
Unter der "sonnigen Seite" der neuen Technologie treten auch neue Probleme auf. Kann die einfache Datenerfassung mithilfe einfacher Hardware dazu führen, dass man in eine extreme Richtung der Mengenverfolgung gerät? Wie kann man in dieser "Gewaltästhetik" die Qualität und Vielfalt der Daten im Gleichgewicht halten?
Was bedeutet die UMI für die Embodied Intelligence?
In letzter Zeit sind vermehrt verbesserte und aktualisierte UMI-Produkte aufgetaucht. Die Embodied Learning Society hat Gespräche mit Technologieexperten von repräsentativen chinesischen Unternehmen geführt, darunter Dr. Ding Yan, Mit-CTO von Luming Robotics, und Dr. Lü Jun, Produktverantwortlicher von Qiongche Intelligence's RoboPocket. Aus technischer Perspektive werden wir eine realistischere Situation der Datensammlung und die zukünftige Entwicklungstrends sehen.
Was ist die UMI?
In der ursprünglichen Stanford-Studie wurde die UMI als ein "Greifzange + visuelles System" -Sammlungskonzept beschrieben: Durch die Installation von leichten Sensoren und Kameras an der Hand des menschlichen Bedieners oder an einem Endwerkzeug werden die Bahnen, Zeitabläufe und Umgebungsrückmeldungen während des Bedienungsprozesses direkt aufgezeichnet.
Später haben Teams wie Generalist und Sunday die UMI von der akademischen Welt in die Industrie gebracht und die massenhafte Produktion von echten Geräte-Daten begonnen. (Cheng Chi, Mitbegründer von Sunday, war einer der beiden Erstautoren der UMI-Studie aus dem Jahr 2024.)
Bildquelle: Sunday
In China hat Dr. Ding Yan von Luming versucht, während seines Doktoratsstudiums in den USA Daten mithilfe einer Fernbedienungshandsteuerung für einen Roboterarm zu sammeln. Er fand den Prozess sehr umständlich und anstrengend. Damals hatte er den Wunsch, den schwerfälligen Roboterarm "abzuschalten" und direkt mit der Greifzange zu arbeiten. Nachdem er im März 2024 über die UMI gelesen hatte, fand er, dass dies genau seiner Idee des "Faulens" und der alleinigen Fokussierung auf die Vorderendbedienung entsprach.
Das Team von Qiongche hat bereits 2021 mit der Erstellung eines Fernbedienungsdatensatzes begonnen, aber festgestellt, dass das Modell der "Datensammelfabrik" drei Haupthindernisse hat: Extremely hohe Kosten, unanschauliche Bedienung (mechanische Bewegungen aufgrund der Fernbedienung) und ein eingeschränkter Anwendungsbereich (weit hinter der realen Welt zurückbleibend). Daher haben sie allmählich von der "Roboterbasis" über das "Exoskelett" zur UMI hin zu einem Datensammelkonzept geführt, das sich vom Roboter und vom Laborumfeld löst.
Heute ersetzen Menschen in gewisser Weise die Roboter-"Basis" bei der UMI. Menschen bewegen sich in der realen Welt und erzeugen Bedienungsdaten, indem sie eine Roboter-Greifzange bedienen. Wenn man die UMI-Daten definieren müsste, wären sie eher ein Zwischenzustand zwischen Robot-Data und Human-Data: Weder wie die reinen Internetvideos, die menschliche Daten lernen, noch wie die stark gekoppelten echten Geräte-Fernbedienungsdaten.
Es muss jedoch betont werden, dass es keine sukzessive Ersetzungsbeziehung zwischen diesen drei Typen gibt, geschweige denn, dass man sagen könnte, dass einer besser ist als der andere. In der Realität verwenden Unternehmen in der Embodied Intelligence Branche diese Daten je nach ihrer eigenen Datennutzungskapazität gemischt und bedarfsgerecht.
Warum hat die UMI in kurzer Zeit die Herzen vieler Hersteller erobert? Eines der offensichtlichsten Merkmale des UMI-Datensammelparadigmas ist, dass es kostengünstig ist.
Es gibt zwei offensichtliche Gründe: Erstens erweitert es ständig die Obergrenze der Skalierbarkeit echter Daten und lässt die langjährige Meinung, dass echte Geräte-Daten schwer zu skalieren sind, wanken. Zweitens besteht ein klarer Kreisprozess zwischen UMI-Daten und der Modellbildung, was beweist, dass diese Daten nicht nur gesammelt, sondern auch zu guten Modellen trainiert werden können.
Für die gesamte Embodied Intelligence Branche ist dies ein Schock. Die Branche freut sich nicht nur über eine Datensammlungstechnologie, sondern auch darüber, dass die Daten nicht mehr nur den "Top-Spielern" gehören.
Bildquelle: Luming Robotics
Nehmen wir Luming als Beispiel. Das FastUMI Pro von Luming hat im Vergleich zu herkömmlichen Fernbedienungslösungen eine deutliche Reduzierung der Kosten und eine Erhöhung der Effizienz. Nur die Personalkosten des UMI-Konzepts betragen nur 1/5 der Fernbedienungslösung. Wenn man die Hardwarekosten mit einbezieht, sinkt der Anteil auf erstaunliche 1/200. Die Sammeleffizienz steigt um das Dreifache.
Bildquelle: Qiongche Intelligence
Darüber hinaus hat Qiongche Intelligence einen anderen Weg gewählt. Das RoboPocket verwendet direkt ein iPhone als Kernhardwarelösung, um die vorhandenen intelligenten Endgeräte optimal zu nutzen und die Kosten für die Vorentwicklung und Installation zu senken. Laut Dr. Lü Jun ist das Smartphone eine ausgezeichnete Hardware, die schwer zu übertreffen ist.
Das bedeutet, dass die massenhaften echten Daten nicht mehr das "Exklusivspiel" von reichen Spitzenherstellern sind. Unternehmen aus der zweiten und dritten Liga, die bisher an den Datenskosten gescheitert sind, haben nun erstmals die Möglichkeit, an der Datenkonkurrenz teilzunehmen.
Zugleich entkoppelt die UMI die Daten von der Roboterbasis. Ein und dieselbe Datensammlung kann auf verschiedene Roboterarme angepasst werden. Dadurch müssen Unternehmen nicht mehr aufgrund der "Datenbindung" an eine bestimmte Roboterkonfiguration gebunden sein und brauchen sich auch nicht an ein bestehendes Datenframework zu halten.
Daraus folgt, dass die Senkung der Datenskosten bedeutet, dass die Branche nicht mehr nur darauf abzielt, "wer am meisten Roboter hat, kann am meisten Daten produzieren".
Tatsächlich wurde die UMI in den letzten Monaten nicht immer im Mittelpunkt der Diskussionen stehen. Der Kerngrund ist, dass die Branche weiterhin Zweifel an der Datenqualität hat. Ohne hochwertige Daten ist die UMI nicht nur wirkungslos, sondern kann sogar "Gift" sein.
Es wurde einmal gesagt, dass nur etwa 10% der Daten, die mit früheren UMI-Lösungen gesammelt wurden, tatsächlich nutzbar sind. Daher bleibt die zentrale Frage, ob die mit der UMI gesammelten Daten wirklich zu einem nutzbaren Modell trainiert werden können?
Ende 2025 hat sich die Situation geändert. Ausländische Hersteller in der Embodied Intelligence Branche haben mithilfe des UMI-Datensammelparadigmas Modelle wie das GEN - 0 von Generalist und das ACT - 1 von Sunday trainiert, was zunächst beweist, dass dieser Weg gangbar ist.
Bildbeschreibung: Stellenanzeige für eine Datensammelstelle bei Sunday. Der erste Punkt fordert die Einhaltung des SOP, um die Datenqualität sicherzustellen.
Genau in diesem Stadium hat die Branche begonnen zu verstehen, dass es nicht darum geht, ob man viele Daten sammeln kann, sondern wie diese Daten verwaltet werden müssen, um die Qualität sicherzustellen.
Die UMI wird oft falsch als "Aufzeichnung des menschlichen Bedienungsprozesses einer Greifzange mit einer Kamera" verstanden. Tatsächlich ist die UMI eine Aufzeichnung von Interaktionsverhalten, das vom AI in der physischen Welt verstanden und wiederholbar ist. Es muss in mehreren Dimensionen, wie Bahnpräzision, zeitlicher Konsistenz und Bildqualität, gleichzeitig die Standards erfüllen.
Dr. Ding Yan hat in einem Artikel erklärt, warum viele UMI - Geräte keine "trainierbaren Daten" sammeln können. Gründe sind unter anderem die unzureichende Leistung der Kernhardware, die die Informationsdichte von vornherein einschränkt, und dass die Geräte keine systemnahen Produkte, sondern nur eine Ansammlung von Sensoren sind. Dies führt dazu, dass die Qualität der gesammelten Daten nicht ausreicht, um in die Trainingsleitung aufgenommen zu werden.
Er meint, dass "Daten im Wesentlichen wiederholbare Embodied - Interaktionsbahnen sind". Wenn man von echten Daten lernt, möchte man diese Bewegungsbahnen wiederholen. Wenn die Datenqualität nicht gewährleistet ist, wie Bahnabweichungen oder -brüche, kann der Roboter die menschlichen Bewegungen nicht wiederholen. Mit seinen Worten: "Es ist wie eine Klassenarbeit mit offenen Büchern. Wenn die Antworten selbst falsch sind, bringt es nichts, viel zu kopieren."
Dies hat zur Entwicklung einer "Vorwärtsgesteuerten" Datenverwaltungslösung geführt.
Luming Robotics legt großen Wert auf die Datensammlung SOP und hat ein industrielles Datenqualitätsbewertungssystem mit acht Schritten entwickelt. Dr. Ding Yan hat zuvor ein Team von 11 Personen geleitet und in drei Monaten 100.000 echte Geräte - Daten (FastUMI - 100K) und