Der dexter Hand kann jetzt die Flaschenkappen für die Freundin öffnen. Neue Ergebnisse von Tongji-Universität, Tsinghua-Universität, Shanghai Jiao Tong-Universität und anderen.
Fertigkeiten der dexteren Hand +1. Jetzt kann man die Flaschenkappe für die Freundin aufdrehen!
Darüber hinaus kann es auch beim Auspressen von Zahnpasta und Einstecken des Ladegeräts helfen.
Forschungsgruppen aus der Tongji-Universität, Tsinghua-Universität, Shanghai Jiao Tong-Universität, der Universität Hongkong und anderen Institutionen haben einen neuen Ansatz namens KineDex-Framework für das Demonstrations- und Strategie-Lernen bei dexteren Manipulationstasks vorgeschlagen.
Tatsächlich wird der menschliche Bewegungsablauf direkt auf die dexteren Hände übertragen, und gleichzeitig werden hochauflösende taktile Informationen erfasst.
Als Ergebnis hat die dextere Hand Xingdong XHAND 1 von Xingdong Jiyuan verschiedene komplexe und feine Manipulationen erfolgreich erlernt.
Bei neun komplexen Aufgaben wie dem Anziehen von Flaschenkappen, Auspressen von Zahnpasta und Drücken von Spritzen hat der KineDex-Ansatz eine durchschnittliche Erfolgsrate von 74,4 % erreicht, und die Effizienz der Datenerfassung ist im Vergleich zur Fernbedienung um mehr als das Doppelte gesteigert.
Der Artikel wurde von CoRL 2025 akzeptiert.
Wirklich: Schritt-für-Schritt-Anleitung für das Lernen dexterer Manipulationen
Derzeit besteht die Schwierigkeit beim Lernen feiner Manipulationen durch Roboter (insbesondere bei Aufgaben, die eine genaue Kraftsteuerung erfordern) darin, dass es an hochwertigen "Demonstrationsdaten" mangelt.
Bisher gab es zwei Hauptansätze: die Fernbedienung und das Lernen aus Videos. Bei der ersten Methode fehlt dem Bediener das wirkliche "Gefühl", die Effizienz ist niedrig und Versagen ist wahrscheinlich. Bei der zweiten Methode lernt der Roboter durch das Imitieren von menschlichen Handlungen in Videos, aber es gibt Unterschiede zwischen Menschen und dexteren Händen, die Bewegungen stimmen nicht überein, und es gibt ebenfalls keine taktilen Informationen.
Insgesamt ist es mit diesen beiden Methoden schwierig, Daten mit hochauflösenden taktilen und Kraftinformationen zu sammeln, um den Roboter zu trainieren.
Vor diesem Hintergrund hat das Team die KineDex-Lösung vorgeschlagen, deren Kernidee sehr intuitiv ist: Schritt-für-Schritt-Anleitung.
Die Hardwarekonfiguration umfasst einen Roboterarm mit einer dexteren Hand. Das Team verwendet zwei RGB-Kameras, um visuelle Beobachtungsdaten zu sammeln: Eine Kamera ist vor dem Arbeitsplatz befestigt, um eine globale Ansicht der Szene zu liefern, und die andere ist am Handgelenk des Endeffektors montiert, um eine Nahaufnahme des Manipulationsbereichs zu ermöglichen.
Zunächst werden Daten gesammelt. Das Kerndesignkonzept des KineDex-Datenerfassungssystems besteht darin, dass der Bediener die dexteren Hände "tragen" und frei bewegen kann, um taktile Manipulationstasks in Echtzeit auszuführen. Um diese Schritt-für-Schritt-Steuerung zu ermöglichen, hat das Team ringförmige Bänder auf der Rückseite von vier Fingern (außer dem Daumen) der dexteren Hand angebracht.
So kann sichergestellt werden, dass die während der Bewegung auftretenden Kontaktkräfte in Echtzeit an die Hand des Bedieners übertragen werden, um natürliche taktile Rückmeldung während des gesamten Demonstrationsprozesses zu liefern.
Bei jeder Demonstration werden Daten wie visuelle Beobachtungen, propriozeptive Wahrnehmungen (Position und Orientierung des Endeffektors des Roboterarms sowie die Gelenkpositionen der dexteren Hand), taktile Sensorik und Fingernadelkräfte aufgezeichnet.
Als nächstes werden die Daten verarbeitet. Die von der Anlage gesammelten Daten können nicht direkt für das Lernen visueller Bewegungstrategien verwendet werden, da die Kamera sicherlich die Hand des Bedieners aufnimmt, was das Lernen des Roboters stören würde, da es keine menschliche Hand gibt, wenn er später selbst agiert. Wenn solche Daten direkt zum Training verwendet würden, würde dies zu einer signifikanten Verteilungsexternität führen.
Deshalb verwendet das Team Bildinpainting-Techniken, um die Körperteile des Bedieners aus den visuellen Beobachtungen zu entfernen.
Für die ursprünglichen kinästhetischen Demonstrationsdaten wird zunächst Grounded-SAM verwendet, um die Masken der Körperteile des Bedieners aus den Videoframes zu extrahieren. Anschließend werden die Frame-Sequenz und die entsprechenden Masken in das ProPainter-Modell eingegeben, um die von der menschlichen Person verdeckten Bereiche zu reparieren.
Schließlich nimmt die erlernte Strategie visuelle und taktile Informationen auf, prognostiziert Gelenkpositionen und Kontaktkräfte und führt diese über Kraftsteuerung aus, um robuste Manipulationen zu ermöglichen.
Auspressen von Zahnpasta, Einlegen von Eiern und Aufdrehen von Flaschenkappen sind kein Problem
Das Team hat neun Aufgaben entworfen, die sich auf feine Kraftsteuerung, Mehrfingerkoordination und die Fähigkeit zur Interaktion mit alltäglichen Objekten konzentrieren, um die Effektivität dieser Strategie zu überprüfen.
Diese Aufgaben umfassen verschiedene Fertigkeiten für dexter Manipulationen, einschließlich herausfordernder Szenarien, wie das Auspressen von Zahnpasta auf die Zahnbürste (erfordert kontinuierliche Druckanpassungen) und das Drücken einer Spritze (erfordert eine stabile Einhandkraftanwendung und Koordination der Greifbewegung, um ein Verrutschen oder Fehlpositionieren zu vermeiden).
In diesem Experiment wird ein Franka Emika Panda-Roboterarm mit der dexteren Hand Xingdong XHAND 1 von Xingdong Jiyuan eingesetzt. Der XHAND 1 hat an jedem Finger zwei Gelenke, und der Daumen und der Zeigefinger haben zusätzlich Drehgelenke, was insgesamt 12 Freiheitsgrade ergibt. Jeder Finger ist mit 120 taktilen Sensorpunkten ausgestattet.
Das Team vergleicht KineDex mit drei ablativ variierten Versionen:
(1) Version ohne Kraftsteuerung: Der Kraftsteuerungsmodul wird während der Inferenzphase deaktiviert, während die Trainingsbedingungen unverändert bleiben.
(2) Version ohne taktile Eingabe: Die taktilen Sensordaten werden während des Trainings aus der Strategieeingabe entfernt, aber die Strategie prognostiziert weiterhin die Ziel-Fingernadelkräfte und führt dieselbe Kraftsteuerungsstrategie aus.
(3) Version ohne Bildinpainting: Der Bildinpainting-Vorverarbeitungsschritt wird weggelassen.
Für jede Aufgabe führt das Team 20 Versuche durch, um die Leistung zu bewerten.
Der KineDex-Ansatz hat in den meisten Aufgaben eine Erfolgsrate von über 70 % erreicht und in alltäglichen Greif- und Platzieraufgaben wie dem Greifen von Flaschen und Gläsern eine nahezu 100 %ige Erfolgsrate.
Obwohl die Leistung in den letzten drei herausfordernderen Aufgaben etwas abnimmt, beträgt die durchschnittliche Erfolgsrate immer noch über 50 %. Dieser Rückgang könnte darauf zurückzuführen sein, dass diese Aufgaben eine höhere Präzision bei der Positionierung und der Kontaktinferenz erfordern, als die aktuelle Strategieeingabe repräsentieren kann.
Trotzdem beweisen die Experimentergebnisse die Effektivität von KineDex beim Lernen alltäglicher dexterer Manipulationsstrategien, was auf seine natürliche Übereinstimmung mit menschlichen Verhaltensweisen und die Verfügbarkeit genauer taktiler/Kraft-Rückmeldung zurückzuführen ist.
Die Ergebnisse der Ablationsstudie zeigen, dass das Fehlen des Kraftsteuerungsmoduls die Leistung des Systems erheblich beeinträchtigt. Wenn dieser Modul deaktiviert wird, sinkt die durchschnittliche Erfolgsrate in allen Aufgaben auf 16,7 %, und selbst einfache Aufgaben wie das Greifen von Flaschen sind kaum zu bewältigen. Eine dexter Hand ohne Kraftsteuerung berührt oft nur die Oberfläche des Objekts, ohne genügend Druck auszuüben, was zu häufigen Fehlern bei kontaktintensiven Aufgaben führt.
Bei Aufgaben, die besonders auf Kontakt angewiesen sind (wie das Aufdrehen von Flaschenkappen, das Auspressen von Zahnpasta und das Drücken von Spritzen), führt das Fehlen taktiler Eingaben zu einer deutlichen Verschlechterung der Leistung, und die durchschnittliche Erfolgsrate sinkt um 26,7 %.
Wenn die menschliche Hand nicht aus dem Bild entfernt wird, d. h. kein Bildinpainting durchgeführt wird, beträgt die Erfolgsrate in allen Aufgaben 0 %, und es treten während der Ausführung ungewöhnliche Verhaltensweisen auf.
Anschließend hat das Team durch Vergleichsexperimente die Vorteile von KineDex bei der Datensammlung im Vergleich zur Fernbedienung weiter bestätigt.
Die Ergebnisse zeigen, dass die Erfolgsrate bei der Datensammlung mit KineDex nahezu 100 % beträgt, während die Erfolgsrate bei der Fernbedienung nur 39 % ist. Dies zeigt, dass die Fernbedienung höhere Bedienungskompetenzen und mehr Trial-and-Error erfordert, um hochwertige Demonstrationsdaten zu generieren, was zu einer deutlich geringeren Effizienz bei der Datensammlung im Vergleich zu KineDex führt.
In Bezug auf die Effizienz ist die Datensammlung mit KineDex mehr als doppelt so schnell. Bei der komplexen Spritzendruckaufgabe dauert eine einzelne Demonstration mit KineDex nur 50 % der Zeit im Vergleich zur Fernbedienung. Bei der einfachen Flaschengreifaufgabe dauert es weniger als ein Drittel der Zeit im Vergleich zur Fernbedienung.
Eine Nutzerstudie zeigt auch, dass die Menschen die Schritt-für-Schritt-Ansatz von KineDex als intuitiver, effizienter und einfacher zur Datensammlung für komplexe Aufgaben empfinden.
Projektlink:
https://dinomini00.github.io/KineDex/
Artikellink:
https://arxiv.org/abs/2505.01974
Dieser Artikel stammt aus dem WeChat-Account "Quantum Bit", Autor: Fokus auf die neuesten Technologien. 36Kr hat die Veröffentlichung mit Genehmigung durchgeführt.