Zhi Zai Wu Jie und Peking-Universität-Team erzielen neuen Durchbruch: Verleihung von menschlichem Tastgefühl an Roboter?

Das Team von "Intelligenz ohne Grenzen" stellt UniTacHand vor und ermöglicht den Null-Shot-Transfer menschlicher Tastfertigkeiten auf Roboter

「StarLink Capital」ist ein Risikokapitalfonds, der sich auf die Ökosysteme von Large Language Models konzentriert, insbesondere auf die Frühphasen, und die Branche verbindet.

Wenn Roboter die Welt „sehen“ können, beginnen wir zu fragen: Wann können sie die Welt „berühren“ und „verstehen“?

Tastempfindung ist die Grundlage für die feinmotorischen Fähigkeiten des Menschen, aber für Roboter ist es eine große Schwierigkeit, auf dem Weg zur wahren Intelligenz zu sein. Das Sammeln von Tastdaten für Roboter ist zeit- und arbeitsaufwändig, und die riesigen Mengen an menschlichen Tasterfahrungen sind aufgrund der morphologischen Unterschiede auf der anderen Seite abgeschnitten.

Heute wird eine Brücke gebaut – UniTacHand, eine bahnbrechende Studie von BeingBeyond und dem Team der Peking-Universität, kündigt an, dass mit nur 10 Minuten an Mensch-Roboter-Paarungsdaten eine „Zero-Shot“-Verlagerung von menschlichen Tastfähigkeiten auf eine mehrfingrige Greifhand ohne Verluste möglich ist.

Dies bedeutet, dass die „Fingerspitzen“ von Robotern erstmals wirklich die Textur und die Kraft der Welt spüren können. Die Forbes China 30 Under 30-Liste zielt darauf ab, junge Talente unter 30 Jahren in China zu entdecken und zu ehren, die in verschiedenen Bereichen herausragende Führungsqualitäten, Innovationsgeist und Brancheneinfluss gezeigt haben. Mit ihren strengen Bewertungsstandards und ihrer vorausschauenden Sichtweise ist diese Liste zu einem wichtigen Maßstab für junge Unternehmer und Branchenveränderer geworden.

01 Der Schlüssel zum Problem

Die aktuelle Forschung zur Roboter-Tastempfindung steckt in einer doppelten Schwierigkeit, nämlich der „Datenwüste“ und der „Morphologie-Kluft“.

Die Lösung des Problems durch UniTacHand beginnt mit einer zentralen Erkenntnis: Unabhängig von den morphologischen Unterschieden ist die physikalische Logik, wie Menschen und Greifhände Objekte manipulieren, im Wesentlichen gleich.

Das Forschungsteam hat kreativ die UV-Mapping des MANO-Handmodells als „allgemeine Sprache“ eingesetzt. Unabhängig davon, ob die Daten aus menschlichen Tasthandschuhen oder Greifhandsensoren stammen, werden sie alle auf diese standardisierte zweidimensionale Tastkarte „übersetzt“, wodurch die Unterschiede zwischen Hardware und Morphologie ausgeglichen werden.

Nur das Abbilden der Daten in einen einheitlichen Raum reicht nicht aus, um eine echte Tastverlagerung zu erreichen.

Ein wichtiges Problem besteht darin, dass Menschen und Maschinen oft unterschiedliche Strategien anwenden, auch wenn sie die gleiche Aufgabe ausführen. Beispielsweise neigen Menschen dazu, beim Greifen von Objekten die gesamte Handfläche zu benutzen, um die Stabilität zu erhöhen, während Greifhände wie die Inspire eher die Fingerspitzen zum Greifen verwenden.

Dies führt dazu, dass es wesentliche Unterschiede in den aktivierten Bereichen der Tastsignale und den Druckverteilungsmustern gibt, wenn sie mit Objekten in Kontakt kommen.

UniTacHand hat ein zentrales Cross-Domain-Kontrastlernframework entwickelt. Das Ziel ist nicht, die Daten räumlich exakt übereinzustimmen, sondern das Modell dazu zu bringen, die physikalische Semantik und die Aufgabenabsicht hinter der Tastempfindung zu verstehen.

Dieses Framework verwendet eine Doppelzweige-Encoder-Architektur, um die Daten von Menschen und Robotern getrennt zu verarbeiten. Jeder Zweig enthält einen Tast-Encoder und einen Handhaltung-Encoder, um sicherzustellen, dass das Modell sowohl versteht, „was die Tastempfindung ist“ als auch, „was die Hand gerade tut“, und wird mit einer sorgfältig gestalteten Dreifachverlustfunktion gemeinsam optimiert.

Durch diesen Prozess lernt das Modell in seinem internen gemeinsamen latenten Raum allmählich, die „umfassende Druckverteilung auf der menschlichen Handfläche“ und das „konzentrierte Kraftsignal an den Fingerspitzen der Greifhand“ auf höherdimensionale Merkmale mit derselben Semantik abzubilden.

Somit wird die Tastverlagerung nicht mehr einfach auf die Signalumwandlung reduziert, sondern wird zu einem morphologiekreuzenden Verständnis der Tastsemantik. Roboter können nicht nur die Tastbilder in einheitlichem Format „sehen“, sondern auch die darin enthaltenen physikalischen Wirkungen und Handlungsziele „lesen“, um so eine wahrhaftige Wahrnehmungsausrichtung und Fähigkeitsübertragung zu erreichen.

02 Validierung an realen Maschinen

Um die Wirksamkeit des UniTacHand-Frameworks systematisch zu validieren, hat das Forschungsteam fünf repräsentative Tastinteraktionstasks auf einer integrierten Plattform mit einer Inspire-Greifhand und einem RealMan-Roboterarm, die mit Tastsensoren ausgestattet sind, entworfen und getestet.

01 Zero-Shot-Verlagerung:

Ein Modell, das nur mit menschlichen Daten trainiert wurde, kann direkt eingesetzt werden, ohne dass irgendeine Roboter-Tastdaten erforderlich sind.

Bei der Objektlokalisierungstask erreichte es eine Erfolgsrate von 100%, und bei der Sortierungs- und Platzierungstask für weiche und harte Objekte lag die Erfolgsrate bei 85%, was die traditionellen Basismethoden deutlich übertrifft.

02 Verlagerung mit wenigen Paarungsdaten:

Bei der Weichkontrolltask erreichte der Roboter eine Genauigkeit von 40% bei der Erkennung der Kraftrichtung durch die Tastempfindung; bei der Sortierung von 10 unbekannten Objekten lag die Genauigkeit bei 38,6%, was eine ausgezeichnete Generalisierungsfähigkeit zeigt.

03 Einzelsample-Mischtraining:

Indem nur menschliche Daten und ein Satz an Daten von einer realen Maschine kombiniert werden, erreichte das Modell bei der Tastunterscheidung von optisch verwirrenden Objekten (z. B. leere und volle Flaschen) eine Erfolgsrate von 73,3%, was nicht nur die Methoden, die nur mit Roboterdaten trainiert wurden, weit übertrifft, sondern auch deutlich besser als andere Mischtraining-Basismethoden ist.

Die Ergebnisse dieser fünf Experimente zeigen gemeinsam, dass der von UniTacHand aufgebaute Weg „Menschliche Tastempfindung → Einheitliche Repräsentation → Roboterfähigkeiten“ wichtige Durchbrüche in Bezug auf Dateneffizienz, Verlagerungsleistung und Generalisierungsfähigkeit erzielt hat.

Abschlussbemerkung:

「BeingBeyond」 hat die Mission, „den Übergang von humanoide Robotern aus dem Labor in den Alltag zu fördern“. Das Unternehmen setzt sich dafür ein, durch menschliche Daten und Multimodal-Large-Language-Modell-Technologie ein universelles Modellframework für humanoide Roboter aufzubauen, um die Kerntechnikprobleme der Embodied Intelligence zu lösen und die Technologierevolution der humanoide Roboter zu leiten.

Der Inhalt stammt aus

1. BeingBeyond: „BeingBeyonds neueste Ergebnisse: Erstmalige Realisierung der Verlagerung von Tastdaten zwischen menschlicher Hand und Roboter, direkt an die Schwierigkeiten bei der Datenerfassung für Greifhandtastung herangegangen“

Dieser Artikel stammt aus dem WeChat-Account „StarLink Capital“, geschrieben von StarLink Capital und mit Genehmigung von 36Kr veröffentlicht.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Zhi Zai Wu Jie und das Team der Peking-Universität erzielen einen neuen Durchbruch: Robotern wird menschliches Tastgefühl verliehen?