Das heiß gewordene Modellgesicht von Silizium-Basis-Schönheiten: Kein Roboter mehr nach 3-sekündigen Augenkontakt

Einen guten Ruf haben; Bekannt und angesehen sein

„Wenn es eine Endform für humanoide Roboter gibt, dann wird sie auf jeden Fall ein Gesicht haben. Was meinst du?“

Am 22. März sorgte ein 1-Minuten-18-Sekunden-Video in den sozialen Medien für Aufsehen. Im Video dreht sich langsam der Kopf eines künstlichen humanoide Roboters mit schwarzen langen Haaren und einem so perfekt aussehenden Gesicht, dass es beunruhigend wirkt.

Derjenige, der dieses Video veröffentlichte, ist Hu Yuhang, der Gründer von Shouxing Technology. Er schrieb auf der Plattform X: Bionic Humanoid Robot: Origin F1 — New Skins, New Souls.

Die Zeitschrift RoboHorizon bewertete die Gesichtsausdrücke des Origin F1 als „überzeugender als die einiger Politiker“.

Dies ist nicht das erste Mal, dass Shouxing Technology in die Öffentlichkeit tritt. Im vergangenen Mai sorgte ein Video, in dem Hu Yuhang mit einem Roboter sich anschaut, für breite Diskussionen. Aber der Origin F1 scheint einen weiteren Schritt vorwärts getan zu haben.

Das menschliche Gesicht ist die älteste Benutzeroberfläche

1984 veröffentlichte Apple den Macintosh und ersetzte die Befehlszeile durch eine grafische Benutzeroberfläche. In den folgenden vierzig Jahren war jede Revolution bei Rechengeräten im Wesentlichen eine Revolution der Benutzeroberfläche: Maus, Touchscreen, Sprache, Gesten. Die Verbesserung der Hardwareleistung ist zwar wichtig, aber was das Verhältnis zwischen Mensch und Maschine wirklich verändert, ist immer die Veränderung der Interaktionsweise.

In der Psychologie gibt es das „55/38/7-Gesetz“: 55 % der emotionalen Informationen stammen aus Gesichtsausdrücken, 38 % aus der Stimme und nur 7 % aus Text. Mit anderen Worten, mehr als die Hälfte der emotionalen Informationen wird über das Gesicht übertragen. Um eine emotionale Verbindung zwischen Menschen und Robotern herzustellen, ist ein Gesicht, das Emotionen ausdrücken kann, fast unverzichtbar.

Aber in der Kategorie des menschlichen Gesichts haben fast alle humanoide Roboter eine Lücke gelassen.

Darum sieht Hu Yuhang das menschliche Gesicht als eine „Plattform“. So wie iOS nicht eine App auf dem iPhone ist, sondern die Basisebene, auf der alle Apps laufen – das menschliche Gesicht ist die Basisebene des menschlichen Sozialprotokolls. Augenkontakt schafft Vertrauen, ein Lächeln übermittelt Güte, ein gerunzelter Stirn ausdrückt Zweifel.

In diesem Sinne ist das menschliche Gesicht das älteste Betriebssystem der Menschheit. Was Shouxing Technology tun will, ist, dieses Betriebssystem auf Roboter zu übertragen.

Schauen wir uns nun anhand einiger Artikel an, wie Hu Yuhang das umsetzt.

Hu Yuhang ist Doktor der Mechanischen Ingenieurwissenschaften an der Columbia University und Schüler von Professor Hod Lipson. Das Lipson-Labor ist ein Pionier auf dem Gebiet der Selbstmodellierung von Robotern und hat seit 2006 begonnen, zu erforschen, wie Roboter durch Beobachtung ihrer eigenen Bewegung lernen können.

Im März 2024 veröffentlichte Hu Yuhang als Erstautor einen Artikel über die „Kokexpression“ des Gesichts in Science Robotics.

Die zentrale Idee dieses Artikels ist sehr ambitioniert: Roboter sollten nicht nur menschliche Gesichtsausdrücke imitieren, sondern auch vorhersagen können, welche Gesichtsausdrücke Menschen in Kürze machen werden, und diese synchron ausführen.

Das Team entwarf einen Roboterkopf namens Emo, der mit 26 Antrieben ausgestattet ist und mit einer flexiblen Silikonschicht überzogen ist. In die Pupillen sind hochauflösende Kameras eingebaut, um Augenkontakt herzustellen.

Der Trainingsvorgang besteht aus zwei Schritten: Zunächst lässt man den Roboter vor einem Spiegel eine Vielzahl zufälliger Gesichtsausdrücke machen und erstellt durch selbstüberwachendes Lernen ein Selbstmodell des Gesichts. Dann lässt man ihn menschliche Gesichtsvideos anschauen, um zu lernen, die Gesichtsausdrucksänderungen des Gesprächspartners vorherzusagen.

Nach diesen beiden Schritten kann der Roboter im Moment, in dem ein Mensch lächelt, synchron lächeln, anstatt mit einer Verzögerung zu imitieren.

Verzögerte Imitation wirkt unehrlich, während synchrone Expression das Gefühl erweckt, dass sich beide auf derselben Wellenlänge befinden.

Dieser Artikel validierte die Daten von über 45 menschlichen Teilnehmern.

Hu Yuhang hat in mehreren Interviews wiederholt das Konzept der „Selbstmodellierung“ erwähnt. Er war mit dem damaligen vorherrschenden Ansatz des Verstärkungslernens nicht zufrieden, da die Generalisierungsfähigkeit zu schwach war. Er gab auch ein Beispiel:

Man lehrt einem Roboter, Tischtennis zu spielen, und dann Badminton. Nachdem er das zweite gelernt hat, vergisst er das erste. Wenn man beide zusammen lernt, wird die Fähigkeit gemittelt.

Was er will, ist nicht, dass der Roboter sich auf eine einzelne Aufgabe konzentriert, sondern dass er eine „Lernfähigkeit“ erlernt.

Im Januar dieses Jahres erreichte ein weiterführendes Ergebnis die Titelseite von Science Robotics.

Diesmal lag der Fokus auf der Lippenbewegung. Bei menschlichen Gesicht-zu-Gesicht-Kommunikationen richtet fast die Hälfte der visuellen Aufmerksamkeit auf die Lippen. Aber selbst bei den fortschrittlichsten humanoiden Robotern bleibt die Lippenbewegung auf einfaches Öffnen und Schließen beschränkt.

Das Team von Hu Yuhang entwarf einen Lippenantrieb mit 10 Freiheitsgraden, der in Kombination mit flexiblen Silikonlippen 24 Konsonanten und 16 Vokale abdecken kann.

Im Bereich der Algorithmen verwendeten sie eine selbstüberwachende Lernpipeline auf Basis eines Variational Autoencoders (VAE) in Kombination mit einem Facial Action Transformer, um dem Roboter zu ermöglichen, die Lippenbewegungsbahnen direkt aus der Sprachaufnahme abzuleiten, ohne dass es handgeschriebener Phonem-Lippenform-Mappings bedarf.

Schließlich wurde eine Lippen-Sprache-Synchronisierung über 11 Sprachen hinweg erreicht, einschließlich Sprechen und Singen.

Professor Lipson sagte damals: In der Zukunft wird es keine Welt geben, in der humanoide Roboter kein Gesicht haben. Sobald sie eines haben, müssen die Augen und die Lippen richtig funktionieren, sonst bleiben sie für immer in der Unheimlichkeitstrasse.

Humanoide Roboter eignen sich besser zur Bereitstellung von emotionalem Wert

Werfen wir einen Blick auf den aktuellen Markt für humanoide Roboter: Geschickte Hände schrauben, tanzen, fahren Fahrräder. Fast alle führenden Unternehmen hoffen, in naher Zukunft humanoide Roboter als Ersatz für Arbeiter in der Produktion und Logistik einzusetzen.

Aber Industrieroboter sind von Natur aus auf spezifische Aufgaben optimiert. Drei Motoren führen eine Aktion aus, was äußerst effizient und stabil ist. Humanoide Roboter benötigen für dieselbe Aufgabe zwanzig bis dreißig Motoren, sind teurer, instabiler, haben eine kürzere Akkulaufzeit und können umfallen.

Umfallen ist gefährlich.

Eine Maschine, die Hunderttausende von Yuan kostet und wie ein Mensch aussieht, und die in einer Fabrik eine Aufgabe erledigt, die ein dreitausend-Yuan-Mechanikarm auch erledigen könnte, kann nicht als technologische Revolution bezeichnet werden, sondern eher als Performancekunst.

Die gesamte Branche hat viel Ressourcen in das Wort „humanoid“ investiert, aber bei dem Wort „Mensch“ ist sie kollektiv sprachlos geworden.

Humanoide Roboter ohne Gesicht können Aufgaben erledigen, aber keine Beziehungen aufbauen. Und Beziehungen sind der Eintrittsschlüssel für den Verbraucher-Markt.

Shouxing Technology hat sich für einen völlig anderen Weg entschieden. Anstatt den Robotern den Kopf gegen Industrieroboter zu stoßen, lässt man sie lieber Dinge tun, die Industrieroboter niemals können – eine emotionale Verbindung aufzubauen.

Hu Yuhangs Kernaussage ist: In den nächsten fünf Jahren liegt die größte kommerzielle Chance für humanoide Roboter nicht in der Produktivität, sondern im emotionalen Wert.

Menschen projizieren von Natur aus Emotionen auf Dinge, die wie Menschen aussehen. Wenn man einen Roboter fallen sieht, fühlt man Mitleid. Wenn man Roboter beim Fußballspielen zusammengedrängt sieht, findet man es lustig. Diese Projektion ist instinktiv und erfordert nicht, dass der Roboter wirklich bewusst oder fühlend ist. Und das menschliche Gesicht verstärkt diese Projektion auf das Maximum.

Im Juni 2024 gründete er in Shanghai Shouxing Technology mit einem Team von weniger als zehn Personen. Vier Monate später erhielt er eine Angel-Finanzierung von Investoren wie Miracle Plus, ZHIYUAN ROBOTICS und Deshun Capital.

Danach ging die Finanzierung rasant voran. Im Jahr 2025 absolvierte er vier Runden Finanzierung, von der Pre-A-Runde, die von China Merchants Capital und Shenzhen Capital Group geleitet wurde, über die A-Runde, die von Shunwei Capital geleitet wurde, bis hin zu zwei Runden, die von Ant Group geleitet wurden …

Betrachtet man die Produktpalette, hat Shouxing derzeit mehrere Serien.

Die Elf-Serie ist ein ganzkörperlicher künstlicher Roboter mit 30 Freiheitsgraden im Gesicht, der mit bürstenlosen Mikromotoren Silikonschichten antreibt.

Die Origin-Serie ist eher für Forschung und Präsentation bestimmt. Der Origin M1 ist die halb-körperliche Version und verfügt über Lippen-Sprache-Synchronisierung und Kopf-Auge-Koordination. Der neueste Origin F1 ist die Synthese ihrer Technologien und verfügt über das sogenannte Omni Model, das eine tiefe Integration von Echtzeit-Gesichts-Mikroausdrücken und Sprache ermöglicht.

Darüber hinaus gibt es noch eine preiswertere Lan-Serie, die für Szenarien mit höherer Mobilität konzipiert ist.

Im Dezember des vergangenen Jahres stellte Shouxing Technology zusammen mit dem Mobilspiel „Nishuihan“ auf der Comic-Con CP32pre in Hangzhou den bionischen Roboter des Spielcharakters „Fang Chengyi“ vor. Laut Berichten kann er dank eines stereoskopischen Sehsystems mit den Zuschauern Augenkontakt aufnehmen und durch einen eingebauten künstlichen Bewegungalgorithmus natürliche Gesichtsausdrücke und Kopfbewegungen machen.

Früher hatte Shouxing Technology zusammen mit „Nishuihan“ den Roboter „Elf Xuan“ entwickelt. Elf Xuan trat später mit einer neuen Haut auf der chinesischen Neujahrsfeier auf Douyin auf und sang das Original-Liebeslied „Undefined Relationship“.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Das Modellgesicht von Silizium-Basis-Schönheiten ist heiß geworden. Nach einem 3-sekündigen Augenkontakt kann ich es nicht mehr als Roboter betrachten.

Das menschliche Gesicht ist die älteste Benutzeroberfläche

Humanoide Roboter eignen sich besser zur Bereitstellung von emotionalem Wert