StartseiteArtikel

Zhi Zai Wu Jie und das Team der Peking-Universität erzielen einen neuen Durchbruch: Roboter erhalten menschliches Tastgefühl?

星连资本2026-06-06 12:00
Das Team von „Zhi Zai Wu Jie“ stellt UniTacHand vor, das den Zero-Shot-Transfer menschlicher Tastfertigkeiten auf Roboter ermöglicht.

「Xinglian Capital」 ist ein Risikokapitalfonds, der sich auf die Ökosysteme von Large Language Models konzentriert. Er setzt vor allem auf Frühphaseninvestitionen und verbindet die Branche.

Wenn Roboter die Welt „sehen“ können, beginnen wir zu fragen: Wann können sie die Welt „berühren“ und „verstehen“?

Der Tastsinn ist die Grundlage für die geschickten Handgriffe des Menschen, aber er ist auch eine große Kluft, die Roboter überwinden müssen, um echte Intelligenz zu erreichen. Das Sammeln von taktilen Daten für Roboter ist zeit- und arbeitsaufwändig, und die riesigen Mengen an taktilen Erfahrungen des Menschen sind aufgrund der morphologischen Unterschiede auf der anderen Seite der Kluft.

Heute wurde eine Brücke geschlagen – UniTacHand, eine bahnbrechende Studie von BeingBeyond und einem Team der Peking-Universität, hat angekündigt, dass mit nur 10 Minuten an Mensch-Roboter-Paarungsdaten eine „null-shot“-Verlagerung von menschlichen taktilen Fähigkeiten auf einen mehrfingrigen Handgriff ohne Verluste möglich ist.

Dies bedeutet, dass die „Fingerspitzen“ von Robotern bald zum ersten Mal wirklich die Textur und die Kraft der Welt spüren werden. Die Forbes China 30 Under 30-Liste zielt darauf ab, junge Talente unter 30 Jahren in China aufzuspüren und zu ehren, die in verschiedenen Bereichen herausragende Führungsqualitäten, Innovationsgeist und Brancheneinfluss gezeigt haben. Die Liste ist aufgrund ihrer strengen Bewertungsstandards und ihrer vorausschauenden Sichtweise zu einem wichtigen Maßstab für junge Unternehmer und Branchenveränderer geworden.

01 Der Schlüssel zum Problem

Die aktuelle Forschung über taktile Sensoren für Roboter steckt in einer doppelten Schwierigkeit von „Datenwüste“ und „Morphologiekluft“.

Die Lösung des Problems von UniTacHand beginnt mit einer Kernaussage: Abgesehen von den morphologischen Unterschieden ist die physikalische Logik, wie Menschen und geschickte Hände Objekte manipulieren, im Wesentlichen gleich.

Das Forschungsteam hat kreativ die UV-Abbildung des MANO-Handmodells als „allgemeine Sprache“ eingesetzt. Unabhängig davon, ob die Daten aus einem menschlichen taktilen Handschuh oder einem Sensor einer geschickten Hand stammen, werden sie alle auf diese standardisierte zweidimensionale taktile Karte „übersetzt“, wodurch die Unterschiede zwischen Hardware und Morphologie ausgeglichen werden.

Das bloße Abbilden der Daten in einen gemeinsamen Raum reicht jedoch nicht aus, um eine echte taktile Verlagerung zu erreichen.

Ein Schlüsselproblem besteht darin, dass Menschen und Maschinen, auch wenn sie dieselbe Aufgabe ausführen, oft unterschiedliche Strategien anwenden. Beispielsweise neigt die menschliche Hand dazu, beim Greifen von Objekten die gesamte Handfläche zu verwenden, um die Stabilität zu erhöhen, während geschickte Hände wie die Inspire eher die Fingerspitzen zum Greifen nutzen.

Dies führt dazu, dass es beim Kontakt mit Objekten wesentliche Unterschiede zwischen den aktivierten Bereichen der taktilen Signale und den Druckverteilungsmustern gibt.

UniTacHand hat einen zentralen Cross-Domain-Kontrastlernrahmen entwickelt. Das Ziel besteht nicht darin, die Daten räumlich einander zuzuordnen, sondern das Modell dazu zu bringen, die physikalische Semantik und die Aufgabenabsicht hinter dem Tastsinn zu verstehen.

Dieser Rahmen verwendet eine Doppelzweige-Encoder-Architektur, um die Daten von Menschen und Robotern getrennt zu verarbeiten. Jeder Zweig enthält einen Tastsinn-Encoder und einen Handhaltung-Encoder, um sicherzustellen, dass das Modell sowohl versteht, „was der Tastsinn ist“ als auch, „was die Hand tut“, und wird mit einer sorgfältig gestalteten Dreifachverlustfunktion gemeinsam optimiert.

Durch diesen Prozess lernt das Modell in seinem internen gemeinsamen latenten Raum allmählich, die „umfassende Druckverteilung der menschlichen Hand“ und das „konzentrierte Kraftsignal der Fingerspitzen einer geschickten Hand“ auf höherdimensionale Merkmale mit derselben Semantik abzubilden.

Von nun an ist die taktile Verlagerung nicht mehr einfach eine Signalumwandlung, sondern eine Quermorphologische taktile Semantikverstehen. Roboter können nicht nur taktile Bilder in einem einheitlichen Format „sehen“, sondern auch die darin enthaltenen physikalischen Wirkungen und Handlungsziele „lesen“, um so eine wahrhafte Wahrnehmungsausrichtung und Fähigkeitsübernahme zu erreichen.

02 Echtmaschinenverifikation

Um die Wirksamkeit des UniTacHand-Rahmens systematisch zu überprüfen, hat das Forschungsteam fünf repräsentative taktile Interaktionstasks auf einer integrierten Plattform aus einer Inspire-geschickten Hand mit taktilen Sensoren und einem RealMan-Roboterarm entworfen und getestet.

01 Null-Shot-Verlagerung:

Ein Modell, das nur mit menschlichen Daten trainiert wurde, kann direkt eingesetzt werden, ohne dass irgendeine taktile Roboterdaten erforderlich sind.

Bei der Objektlokalisierungstask erreichte es eine Erfolgsrate von 100%, und bei der Weich-Hart-Objekt-Klassifizierungs- und Platzierungstask eine Erfolgsrate von 85%, was die traditionellen Basismethoden deutlich übertrifft.

02 Verlagerung mit wenigen Paarungsdaten:

Bei der Weichheitskontrolltask erreichte der Roboter eine Genauigkeit von 40% bei der taktilen Erkennung der Kraftrichtung; bei der Task der Klassifizierung von 10 unbekannten Objekten erreichte er eine Genauigkeit von 38,6%, was eine ausgezeichnete Generalisierungsfähigkeit zeigt.

03 Ein-Shot-Mischtraining:

Indem es nur menschliche Daten und eine echte Maschinen-Daten kombiniert, erreichte das Modell bei der taktilen Unterscheidung von optisch verwirrenden Objekten (z. B. leere und volle Flaschen) eine Erfolgsrate von 73,3%, was nicht nur die Methoden, die nur mit Roboterdaten trainiert wurden, deutlich übertrifft, sondern auch die anderen Mischtrainings-Basismethoden.

Die Ergebnisse dieser fünf Experimente zeigen gemeinsam, dass der von UniTacHand aufgebaute „Menschlicher Tastsinn → Einheitliche Repräsentation → Roboterfähigkeiten“-Pfad in Bezug auf Dateneffizienz, Verlagerungsleistung und Generalisierungsfähigkeit wichtige Durchbrüche erzielt hat.

Abschlussbemerkung:

「BeingBeyond」 hat die Mission, „menschenähnliche Roboter aus dem Labor in den Alltag zu bringen“. Es setzt sich dafür ein, mithilfe von menschlichen Daten und Multimodal-Large-Language-Modell-Technologien ein universelles Modellrahmen für menschenähnliche Roboter aufzubauen, um die Kerntechnikprobleme der Embodied Intelligence zu lösen und die technologische Revolution der menschenähnlichen Roboter anzuführen.

Inhalt stammt von

1. BeingBeyond 《BeingBeyond's neueste Ergebnisse: Erstmalige Realisierung der Übertragung von taktilen Daten zwischen menschlicher Hand und Roboter, direkt an den schwierigen Punkt der Schwierigkeit bei der Erfassung von taktilen Daten für geschickte Hände》

Dieser Artikel stammt aus dem WeChat-Account „Xinglian Capital“, Autor: Xinglian Capital, veröffentlicht von 36Kr mit Genehmigung.