Humanoidroboter: Warum ist die dexter hand eine unüberwindliche Hürde?
Nachdem Delfinjunior im letzten Artikel die einzelnen Schritte der Branchenkette von humanoide Robotern detailliert analysiert hat, konzentriert sich dieser Artikel auf die Untersuchung von dexteren Händen. Delfinjunior befasst sich mit einigen Schlüsselfragen:
1) Warum sind dextere Hände so wichtig?
2) Wo liegen die Branchenengpässe bei dexteren Händen?
3) Was bedeuten die Lösungen dieser Engpässe für Risiken und Chancen?
4) Welche Richtung werden dexteren Hände zukünftig einschlagen und welche möglichen kommerziellen Pfade gibt es?
Keine unnötigen Worte, direkt zum Thema:
Warum sollten wir uns für dexteren Hände interessieren?
Für humanoide Roboter hat Elon Musk und Tesla wiederholt die Schwierigkeit und den Wert von dexteren Händen betont. In mehreren früheren Demo-Videos des Optimus-Humanoiden Roboters können wir auch sehen, dass der Markt vor allem Fortschritte in den Handbewegungen erwartet.
Zur gleichen Zeit haben die Hersteller von humanoide Robotern, insbesondere die chinesischen Hersteller auf dem Festland, in den letzten einiger Jahren immer wieder beeindruckende Bewegungssteuerungen gezeigt. Sie sind von einfachen Taschentuchdrehbewegungen schnell zu kompetenten Tanzen und Boxen fortgeschritten, und die Flüssigkeit ihrer Bewegungen lässt die meisten Menschen hinter sich zurück. Aber haben wir bemerkt, dass diese beeindruckenden Bewegungen hauptsächlich an den Körpergelenken stattfinden und im Wesentlichen keine Hände involvieren?
Dies bedeutet keinesfalls, dass die Hände unwichtig sind. Im Gegenteil, es zeigt, dass die Realisierung von Handbewegungen weit schwieriger ist als die von Körpergelenken.
Wie wichtig sind die Hände? Stellen Sie sich vor, ein humanoider Roboter mit künstlichen Händen. Unabhängig davon, wie beweglich seine Körpergelenke sind, ist er ohne dexteren Hände nicht viel besser als Rad- oder Beinroboter oder sogar die einfachsten Industriearbeitsmaschinen oder kollaborativen Roboter.
Die Hände sind also tatsächlich der wichtigste Teil eines humanoiden Roboters. Aber aus industrieller Sicht ist die Realisierung von Händen wirklich schwierig.
Ein einfaches Beispiel: Welche Informationen berücksichtigen Menschen, wenn sie beschließen, etwas mit der Hand zu greifen?
Zunächst die visuellen Informationen. Wir sehen ein Objekt mit unseren Augen und nutzen dann die gewonnenen visuellen Informationen, kombiniert mit unseren Überlegungen, um die Position, Entfernung, Art und Eigenschaften des Objekts zu beurteilen.
Dann beginnen wir mit der Greifbewegung. In diesem Prozess kommt der Tastsinn zum Einsatz. Zunächst berühren unsere Finger das Objekt. Dann erhalten wir über die taktilen Nerven in unseren Fingern Informationen über das Gewicht, die Weichheit oder Härte, die Temperatur und die Reibung des Objekts. Schließlich beginnen wir mit dem Greifen. Man kann sich vorstellen, dass wir glatte oder raue Objekte auf unterschiedliche Weise greifen.
Darüber hinaus ist die Feinheit der Informationen, die der Tastsinn liefert, auch anders als die der visuellen Wahrnehmung. Beispielsweise ist es für uns möglicherweise schwierig, ein feines Tierhaar visuell wahrzunehmen, aber wenn wir es mit dem Finger berühren, spüren wir seine Existenz leicht.
Bild: Optimus greift ein Ei und nutzt taktile Sensoren
Quelle: Tesla, Delfin-Forschung
Aus der obigen Erklärung können wir einfach die Schwierigkeit von dexteren Händen verstehen. Wo liegen dann die Engpässe, um diese Fähigkeiten von dexteren Händen zu realisieren?
Wo liegen die Engpässe von dexteren Händen?
Hier unterteilen wir es in zwei Teile: Hardware und Software. Einfach ausgedrückt, liegen die Hardware-Schwierigkeiten in der Hardware-Integration und der Multimodalen Wahrnehmungsfusion, während die Software-Schwierigkeiten in der Architektur des Large Language Models und der Akkumulation von Datenmengen liegen.
Aus Hardware-Sicht liegen die Schwierigkeiten hauptsächlich in der hohen räumlichen Integration und der multimodalen Wahrnehmung
(1) Hohe Schwierigkeit bei der räumlichen Integration
Beispielsweise muss in der Optimus 2.5-Lösung von Tesla in einem sehr begrenzten Raum die Komponenten für mehr als 20 Freiheitsgrade untergebracht werden, einschließlich Motoren, Planetengetrieben, Mikro-Kugelgewindetrieben und Seilzügen. Diese Komponenten müssen hohen Anforderungen an Leistungsdichte, Präzision, Zuverlässigkeit, Lebensdauer und Kosteneffizienz entsprechen.
(2) Hohe Anforderungen an die Wahrnehmung, zahlreiche und multimodale Sensoren erforderlich, wobei der Tastsinn die größte Herausforderung darstellt
Hier geht es um Sensoren, insbesondere taktile Sensoren. Über Sensoren haben wir in früheren Berichten über humanoide Roboter gesprochen. Einerseits müssen sie hohe Präzisionsanforderungen erfüllen (Datenkonsistenz und keine Leistungsschwankungen), andererseits müssen verschiedene Wahrnehmungsinformationen fusioniert werden. Dies erfordert eine extrem hohe Fähigkeit zur multimodalen Wahrnehmungsfusion, da die inhärenten Unterschiede zwischen verschiedenen Modalitäten überwunden werden müssen.
Das waren die Hardware-Hindernisse, aber das ist nur eine Seite der Medaille. Auch die Software hat ihre eigenen Hindernisse, und diese können möglicherweise länger dauern, um gelöst zu werden.
Aus Software-Sicht liegen die Schwierigkeiten hauptsächlich in der Architektur des Large Language Models und der Akkumulation von Datenmengen
Hier könnten wir uns fragen: Eine dexter Hand ist nur ein Aktuator-Aggregat, also Hardware. Was hat das mit Software zu tun? Tatsächlich ist das nicht ganz so:
(1) Algorithmus: Einer der Engpässe
Die Algorithmen von humanoide Robotern befinden sich immer noch in der dynamischen Entwicklungsphase, und die technischen Ansätze haben sich noch nicht etabliert. Insgesamt ist es jedoch allgemein anerkannt, dass im Bereich des Gehirns ein End-to-End-Large Language Model verwendet wird, obwohl es noch keinen Konsens darüber gibt, welche Art und Architektur des Large Language Models am besten geeignet ist.
Entsprechend dem Gehirn gibt es das Kleinhirn. Das Gehirn ist für die Wahrnehmung, den Schlussfolgern und die Entscheidungen zuständig, während das Kleinhirn Befehle empfängt und ausführt. Dies ist die allgemeine Vorstellung von der Algorithmenarchitektur eines humanoiden Roboters.
Das Problem ist: Wenn das Gehirn ein Large Language Model benötigt, braucht das Kleinhirn auch ein solches, oder reichen herkömmliche Algorithmen aus? Und wo sollen das Gehirn und das Kleinhirn platziert werden, in der Cloud oder im Kopf oder im Körperzentrum des humanoiden Roboters, oder kann ein Teil an Randgeräten wie den Händen konfiguriert werden? Zu diesen Fragen gibt es bisher keine Standardlösungen.
Für eine dexter Hand bedeutet dies, dass sie nicht mehr nur reine Hardware ist, sondern auch Software benötigt. Und diese Software ist wahrscheinlich nicht nur ein herkömmlicher, kleiner Bewegungssteuerungsalgorithmus. D.h., die Algorithmus-Herausforderungen, denen humanoide Roboter gegenüberstehen, sind auch die Herausforderungen, denen dexteren Händen gegenüberstehen. Dies ist der erste Punkt.
Zweitens ist die Steuerung von dexteren Händen einer der zentralen Schwierigkeiten in der gesamten Algorithmenarchitektur von humanoide Robotern. Wenn man möchte, dass eine dexter Hand menschliche Greifbewegungen imitiert, wie oben erwähnt, erfordert dies eine multimodale Wahrnehmungseingabe als Grundlage. Dies erfordert eine extrem hohe Fähigkeit des Algorithmus zur Fusion multimodaler Informationen.
Zusammenfassend muss die Entwicklung von dexteren Händen eng mit Algorithmen integriert werden und ist keinesfalls ein isoliertes Modul.
(2) Datenmenge: Fast der größte Engpass derzeit
Die Datenerfassung und -annotierung von menschlichen Bewegungen ist äußerst komplex und kostspielig, und die Anforderungen an die Datengenauigkeit sind extrem hoch. Die bisher akkumulierten Datenmengen von humanoide Robotern sind jedoch weit unzureichend.
Hier ein Vergleich: Stellen Sie sich vor, wie viel Daten in der Branche des autonomen Fahrens gesammelt werden können, und vergleichen Sie es mit den Daten von humanoide Robotern. Der weltweite Jahresverkauf von Elektromobilen wird bald die 20 Millionen Mark erreichen. Offensichtlich kann die Branche des autonomen Fahrens weit mehr Daten akkumulieren als die Roboterbranche.
Aber selbst so ist das autonome Fahren noch nicht vollständig reif. Dabei ist die Wahrnehmung und die Ausführung von humanoide Robotern noch komplexer, und die erforderliche Datenmenge wird vermutlich weit größer sein als bei dem autonomen Fahren. Man kann sich vorstellen, wie stark die Datenmenge die Branche einschränkt.
Der Engpass bei der Datenmenge beeinträchtigt hauptsächlich die Fähigkeit von dexteren Händen. Wie oben erwähnt, können humanoide Roboter unter bestimmten Bedingungen komplexe Bewegungen an den Körpergelenken ausführen, aber bei den Händen fehlt es noch weit.
Natürlich können neben der Verwendung von Daten aus der realen Welt auch Simulationen für das Training verwendet werden. Dies zeigt jedoch noch deutlicher die Engpässe von dexteren Händen, da Simulationsdaten deutliche Grenzen haben.
Mit der zunehmenden Realität der Physik-Engines von Plattformen wie NVIDIA Isaac Sim können die meisten Basis-Schritttrainings von humanoide Robotern tatsächlich in der virtuellen Welt durchgeführt werden, und die Kosten sind gesunken. Dennoch ist es für Simulationen immer noch schwierig, Szenarien mit feinen Unterschieden wie Reibungseigenschaften von Materialien oder komplexen Interaktionen perfekt zu simulieren. Und diese Szenarien betreffen hauptsächlich die Bedienung von dexteren Händen.
Tabelle: Vergleich der Vor- und Nachteile verschiedener Trainingsmethoden
Das war unsere kurze Analyse der Branche von dexteren Händen. Als Nächstes werfen wir einen Blick auf die Investitionschancen in der Hardware-Phase.
Welche Hardware ist wichtig und welche börsennotierten Unternehmen sind damit verbunden?
Die technischen Ansätze für die Hardware von dexteren Händen haben sich noch nicht etabliert. Die Hersteller von humanoide Robotern sind noch in der Erkundungsphase. Der Vorreiter oder die Leuchtfeuer ist immer noch Teslas Optimus. In der neuesten Version des Optimus, die Tesla gezeigt hat, wird im Wesentlichen eine Struktur aus Motor, Planetengetriebe, Mikro-Kugelgewindetrieb und Seilzug für die Aktuatoren verwendet. Basierend auf dieser Struktur werden wir die Hardware analysieren.
Tabelle: Vergleich der technischen Ansätze von Aktuatoren
(1) Zunächst zerlegen wir diese Struktur: In dieser Struktur von dexteren Händen hat jede Hand 22 Freiheitsgrade. Freiheitsgrade können als Gelenke verstanden werden. Davon sind 17 aktive Freiheitsgrade, d.h. diese Freiheitsgrade werden von Aktuatoren aktiv gesteuert, also die oben erwähnte Struktur aus Motor, Planetengetriebe, Mikro-Kugelgewindetrieb und Seilzug.
Bild: Freiheitsgrade von dexteren Händen und Handgelenken
Quelle: Tesla, Delfin-Forschung
Hierbei:
1. Motor: Die Antriebseinheit, die die ursprüngliche Kraft liefert. Sie sind am Arm positioniert. In früheren Versionen wurden 6 Hohlwellenmotoren verwendet. Angesichts der Tatsache, dass die Anzahl der aktiven Freiheitsgrade in der Version 2.5 auf 17 erhöht wurde, werden wahrscheinlich weit mehr als 6 Motoren verwendet. Laut Informationen aus der Branchenkette könnten es entweder Hohlwellenmotoren oder bürstenlose Zahnnutmotoren sein.
2. Planetengetriebe: Auch am Arm positioniert und mit dem Motor verbunden. Es kann auch als Planetenuntersetzer bezeichnet werden und wird verwendet, um die Drehzahl zu reduzieren und das Drehmoment zu erhöhen, ähnlich wie bei den Drehgelenken am Körper.
3. Mikro-Kugelgewindetrieb: Verbunden mit dem Planetengetriebe, wandelt die Drehbewegung in eine Linearbewegung um. Auch am Arm positioniert. Warum wird ein Kugelgewindetrieb zusätzlich zum Planetengetriebe benötigt? Dies ist hauptsächlich auf Überlegungen bezüglich Größe, Präzision und Lebensdauer zurückzuführen.
4. Seilzugmodul: Verbunden mit der Mutter des Kugelgewindetriebs und den Fingern, verläuft durch die Handfläche und leitet die lineare Zugkraft des Kugelgewindetriebs an die Finger weiter. Sowohl die aktiven als auch die passiven Gelenke müssen über Seilzüge verbunden werden.
Der Antriebsprozess der Gelenke von dexteren Händen ist offensichtlich: Nachdem der Befehl vom Kleinhirn empfangen wurde, beginnt der Motor sich zu drehen. Die Kraft wird auf das Planetengetriebe, dann auf den Mikro-Kugelgewindetrieb und schließlich auf den Seilzug und die Finger übertragen. Hierbei ist der Seilzug ähnlich wie die Sehnen in der menschlichen Hand, die in der Handfläche und den Fingern verteilt sind.
Bild: Arm des Optimus