CEO-Strategiesammlung · Projekt X | Wie spaßig ist es, wenn Roboter Gesichtsausdruckskontrolle beherrschen?
Das "CEO-Tipps · Projekt X" ist jetzt live und cool! Ein exklusiver Präsentationsort für Technologieprodukte, wo der CEO mit sensationellen Produkten auftritt. Wir plaudern nicht über leere Worte, sondern nur über fertige und beeindruckende Technologieartikel.
Der AI-Interaktionsbereich tritt in die "Zeit der Mimik" ein. Welcher Roboter ist am ehesten wie ein "Mensch"? Kann er gut reden oder versteht er deine Emotionen? Wenn AI von der rein textbasierten Intelligenz zur physischen Expression und von der Hardware zur emotionalen Interaktion übergeht, wie wird dies unsere Begleitweise und Interaktionserfahrung verändern? Am 7. August um 19:00 lädt das "CEO-Tipps · X-Serie" den Gründer & CEO von Wulun Technology, Cao Rongyun, und den Direktor von Yunxiu Capital, Guo Hao, ein, um zu erleben, wie spaßig ein Roboter mit "Mimikverwaltung" ist.
Dieses Live-Event konzentriert sich hauptsächlich auf folgende Fragen:
- Wie haben sich die beiden damals kennengelernt? Wie beurteilen Sie das Potenzial von akademischen Startup-Teams?
- Wie werden die Mimiken des Roboters Anni realisiert? Welche AI-Produkte finden die beiden vielversprechend?
- Wie beurteilen die beiden die Produktformrichtung, den Preisbereich und die zukünftige Wettbewerbssituation solcher Produkte?
- Wie sehen die beiden die technischen Schwierigkeiten und Anwendungsfälle von Mimik-Kopfprodukten? Wie hat Dr. Cao mit der Gründung seines Unternehmens begonnen? Warum wurde graue Haut gewählt?
- Was ist nach Ansicht der beiden der Kernvorteil zukünftiger Sieger in diesem Bereich? Wie kann man ein echtes AI-Projekt erkennen?
- Letztes Jahr sagte jemand in der Branche, dass humanoide Roboter mindestens 10 Jahre lang nicht kommerzialisiert werden würden. Wie beurteilen die beiden die Situation dieses Jahres?
- Wie groß halten die beiden den zukünftigen Markt für emotionale Begleitung? Welche Ratschläge haben sie für Freunde, die im Bereich der Embodied Intelligence gründen?
Im Folgenden finden Sie das Gespräch zwischen den Gästen und 36Kr, wobei Teile bearbeitet wurden:
36Kr: Wie haben sich die beiden damals kennengelernt? Wie beurteilen Sie das Potenzial von akademischen Startup-Teams?
Guo Hao: Wir haben zunächst auf der Video-Channel von iFlytek das Produkt von Dr. Cao gesehen. Damals war es noch die erste Demo-Version, die einfach einige Gesichtsausdrücke nachahmte. Wir fanden es sehr interessant und kontaktierten Dr. Cao schnell, um an der Unternehmensentwicklung des Teams teilzunehmen und zu unterstützen. Yunxiu leitete die Seed-Runde der Investition und half dem Team, sich von einer kleinen Gruppe zu einem kommerziell erfolgreichen Unternehmen zu entwickeln. Dieser Prozess war sehr sinnvoll.
Cao Rongyun: Ich habe mich auf Empfehlung meines Bruders mit Neo beim Grillen getroffen. Es gibt nichts, was nicht mit einem Grillabend gelöst werden kann. Unsere Teammitglieder haben sich im Robotik-Labor der Fakultät für Informatik der Universität von Wissenschaft und Technologie Chinas kennengelernt. Jeder von uns ist in vielen Bereichen sehr kompetent. Neben der Hardware-Entwicklung und Software-Algorithmen machen wir im Labor fast alles, von Schrauben drehen bis hin zur Herstellung von Silikon-Formen für die Roboter-Gesichter. Da die Robotikentwicklung ein multidisziplinärer Bereich ist, müssen wir uns in vielen kleinen und großen Bereichen gut auskennen. Ich denke, dass die Grundlagenkenntnisse unserer Teammitglieder sehr solide sind. Und da wir lange zusammengearbeitet haben, besteht auch eine feste Basis des Vertrauens unter uns.
36Kr: Wie werden die Mimiken des Roboters Anni realisiert? Welche AI-Produkte finden die beiden vielversprechend?
Cao Rongyun: Zunächst werden die Mimiken auf drei Ebenen realisiert. Auf der Hardware-Ebene muss zunächst der Roboter gebaut werden, bevor er überhaupt in der Lage ist, Mimiken zu machen. Unser Mimik-Kopf hat die meisten Motoren, was die Grundlage für komplexe Mimiken bildet. Auf der Aufgaben-Ebene bestimmt ein Modell, welche Mimik der Roboter in welcher Situation machen soll. Auf der Ausführungs-Ebene wird dann beispielsweise die "fröhliche" Mimik realisiert.
Was AI-Produkte betrifft, finde ich es wichtig, dass sie die Produktivität oder Kreativität steigern können. Eine hochwertige Lebenserfahrung ist ebenfalls wichtig, und die Befriedigung, die durch emotionale Werte entsteht, hat auch praktische Bedeutung. Ein AI-Spielprodukt, das mich kürzlich sehr beeindruckt hat, ist "Whispers of the Stars" von Cai Haoyu. Die dahinterliegende intellektuelle Arbeit ist der Schlüssel. Im Zeitalter der großen Sprachmodelle haben die meisten Interaktionsprodukte die Einschränkung von rundenbasierten Interaktionen. Anders als die natürliche, kontinuierliche Interaktion zwischen Menschen ist dieses technische Problem schwer zu lösen. Aber dieses Spiel löst dieses Problem geschickt. Beispielsweise setzt es die Geschichte in eine interplanetare Interaktion zwischen Menschen und außerirdischen Charakteren. Durch die Tatsache, dass die Lichtgeschwindigkeit in der realen Welt begrenzt ist, wird die Verzögerung und die rundenbasierte Interaktion in der AI-Interaktion plausibel gemacht. Die Szenariosetzung kompensiert die technischen Mängel. Diese Art der Gestaltung ist sehr klug. Ich denke, dass hinter jedem guten Produkt eine Menge intellektuelle Arbeit steckt, und ich habe dies in diesem Spiel gesehen.
Guo Hao: AI-Produkte sind nicht nur humanoide Roboter. Das Wichtigste ist, ob sie wirklich Arbeit ersparen und praktische Probleme lösen können. Im Bereich der Software sind AI-Agent-Hilfsmittel für die Programmierung bereits sehr ausgereift. Ein Softwareunternehmen eines Freundes hat damit die Entwicklungseffizienz deutlich gesteigert und die Kosten gesenkt. Im Bereich der Hardware ist das Audiogerät von Plaud.AI sehr praktisch. Begleitprodukte haben eine geringe Nützlichkeit und Nachfrage und sind relativ teuer. Aber es gibt auch einige vielversprechende Produkte, wie z.B. Desktop-Roboter, die mit dem ESP32 von Espressif hergestellt werden. Die Stückkosten betragen nur ein paar hundert Yuan, und sie haben auch entsprechende Bausätze entwickelt, was sehr vielversprechend ist. Ich denke, dass die Kostensenkung der Schlüssel für die Markteinführung und Akzeptanz solcher Produkte ist.
36Kr: Wie beurteilen die beiden die Produktformrichtung, den Preisbereich und die zukünftige Wettbewerbssituation solcher Produkte?
Cao Rongyun: Zunächst müssen wir berücksichtigen, dass Produkte wie der Mimik-Kopf das Problem des Uncanny Valley haben. Unsere ToC-Produkte werden eher in die Richtung der Cartoonisierung gehen. Die Vorstellung von lebendigen Dingen der Menschen ist in Filmen und Animationen bereits sehr gut dargestellt. Zum Beispiel haben die Autos in "Cars" oder die Spielzeuge und Katzen und Hunde in anderen Filmen lebendige Gesichtsausdrücke, was ganz anders ist als in der realen Welt. Deshalb versuchen wir, solche Bilder aus der alternativen Welt, Filmen und Spielen in die reale Welt zu bringen, damit die Menschen sehen können, dass es in der Realität auch so lebendige Dinge geben kann.
Außerdem denke ich, dass der Markt für Interaktionsprodukte in Zukunft sehr vielfältig sein wird. Da Begleitprodukte stark an Inhalte gebunden sind, wie z.B. Kurzzeitvideo-Plattformen und Spiele in unserem Alltag, sind sie Begleiter unseres Tageslebens. Der Spielemarkt ist ein gutes Beispiel. Große Unternehmen können dank ihrer Personalkraft und Ressourcen 3A-Titel entwickeln, aber auch viele kreative Studios und sogar Einzelpersonen können hervorragende Werke produzieren. Ich denke, dass der Markt in Zukunft sehr interessant sein wird.
Guo Hao: Zunächst waren auf der CES in diesem Jahr einige Produkte sehr aufgefallen, wie z.B. Mirumi, ein Produkt, das an der Tasche hängen kann und sich bewegen und Feedback geben kann, sowie viele ähnliche Produkte in verschiedenen Preisklassen. Es gibt viele verschiedene Produktarten. Aber ob diese Begleitprodukte eine gute und anhaltende tatsächliche Verkaufszahl erzielen können, muss noch der Markt zeigen.
Zweitens bleiben Begleitspielzeuge letztendlich immer "Spielzeuge". Ihre Preise können auf die Hälfte des Preises von Mainstream-Spielkonsolen bezogen werden. Beispielsweise kostet der Nintendo Switch 2 499 US-Dollar und hat eine gute Verkaufszahl. Dank der Fans und der Kohäsion seiner Community ist es schwer, von anderen Produkten zu konkurrieren. Die Hälfte seines Preises beträgt etwa 220 US-Dollar. Deshalb ist es möglich, dass Begleitspielzeuge, die unter 200 US-Dollar kosten und praktisch sind, einen besseren Markt haben. Wenn der Preis zu hoch ist, wird die Kaufkraft eingeschränkt. Natürlich hängt dies von vielen Faktoren ab. Beispielsweise ist der Nintendo Switch 2 dank der Nintendo-IP sehr erfolgreich. Wenn Begleitspielzeuge von guten IPs unterstützt werden, können sie ebenfalls einen Preisaufschlag erzielen.
Schließlich ist es für diese Hardwareprodukte schwierig, eine hohe Marktkonzentration zu erreichen. Einerseits ist die technische Schwelle auf viele Technologiepunkte verteilt. Verschiedene Produktformen erfordern auch völlig verschiedene Technologiestacks. Andererseits gibt es einen großen Unterschied zwischen Hardware und Software. Die Netzwerkeffekte sind relativ schwach. Deshalb werden große Unternehmen teilnehmen und große Mengen produzieren, und kleine Startup-Unternehmen werden auch ständig neue Produkte ausprobieren. Wenn ein Produkt sehr erfolgreich ist, kann es zu einem ausgezeichneten Unternehmen heranwachsen. Es ist zu sehen, dass dieser Markt ein Wettbewerb aller gegen alle sein wird. Große Internet-Unternehmen, etablierte Unternehmen mit guten IPs und Startup-Unternehmen werden alle daran teilnehmen, und die Wettbewerbssituation wird sich in der kurzen Zeit nicht ändern.
36Kr: Wie sehen die beiden die technischen Schwierigkeiten und Anwendungsfälle von Mimik-Kopfprodukten? Wie hat Dr. Cao mit der Gründung seines Unternehmens begonnen? Warum wurde graue Haut gewählt?
Guo Hao: Zunächst ist 2023 aus technischer Sicht ein guter Zeitpunkt. Das Auftauchen der großen Sprachmodelle hat viele Möglichkeiten eröffnet, was für den Interaktionsbereich sehr wertvoll ist. Aber aus Sicht des Kapitalmarktes ist es nicht der beste Zeitpunkt. Zwischen 2020 und 2021 war der Primärmarkt sehr heiß. Das Finanzieren und die Börsengänge waren sehr aktiv. Danach ist es schwieriger geworden, und es gibt mehr Herausforderungen in allen Bereichen.
Zweitens gibt es derzeit zwei Richtungen in der Künstlichen Intelligenz, die viel Aufmerksamkeit erhalten: Einerseits ist es der Bereich der AI-Agenten, andererseits ist es die Embodied Intelligence (Robotics AI). Ein Frage, die die Investoren immer stellen, ist: "Was sind die kommerziellen Anwendungsfälle? Wie kann man sie realisieren?" Wenn man in diesem Bereich Gründet, sucht man genau nach diesen kommerziellen Anwendungsfällen. Wir haben bereits den Hammer in der Hand und suchen nur noch den Nagel. Deshalb ist der Gründungsprozess auch ein Prozess, in dem man die Antwort auf diese Frage sucht. Als Finanzierungsberater können wir den Investoren nur sagen, welche Anwendungsfälle wir uns vorstellen. Wulun Technology versucht auch, diese Anwendungsfälle zu realisieren.
Schließlich gibt es in der Branche einige Pionierunternehmen, die bereits Erfahrungen in der Realisierung von Anwendungsfällen gesammelt haben. Beispielsweise hat der Roboter Ameca der britischen Firma Engineered Arts auf der Milan Fashion Week im vergangenen Jahr eine erfolgreiche Interaktion mit den Modellen gezeigt, was zeigt, dass Roboter auch im Showbusiness-Bereich eingesetzt werden können. In China ist es möglich, dass Roboter auch in Bereichen wie Bildung, Führung und Verkauf eingesetzt werden.
Cao Rongyun: Was unser Team betrifft, haben wir in den frühen Jahren im Labor viele praktische Roboter entwickelt, die Gegenstände greifen und Aufgaben ausführen können. Aber zwischen 2015 und 2016 haben wir festgestellt, dass es sehr schwierig ist, diese Roboter wirklich praktisch einsetzbar zu machen. Damals gab es noch keine großen Sprachmodelle, um die Aufgaben zu planen. Die Generalisierungsfähigkeit war relativ schwach. Deshalb habe ich mich auf den Interaktionsbereich konzentriert. Dieser Bereich hat geringere Kosten und eine höhere Fehlertoleranz, aber es gibt auch viele Herausforderungen. Im Jahr 2022 haben wir als Kernteam beschlossen, ein Unternehmen zu gründen und haben die Unterstützung des Innovations- und Gründungsfonds der Universität erhalten. Im Jahr 2023 haben wir festgestellt, dass der Zeitpunkt reif ist. Um uns den strengeren Tests des Marktes zu stellen, haben wir eine Firma gegründet. Vom Studenten im akademischen Umfeld zum Gründer zu werden, ist eine große Herausforderung, aber auch sehr interessant. Ich hoffe, dass ich mich in diesem Prozess schnell entwickeln kann. Zweitens, was die Bedeutung dieser Sache betrifft, wird in der menschlichen Interaktion die nicht-sprachliche Kommunikation, wie Gesichtsausdrücke, Gesten und Abstandsregulierung, die über 50 % der gesamten Kommunikation ausmacht, oft ignoriert. Da der Roboter in menschlicher Gestalt ist, sollte er sich an der natürlichen menschlichen Interaktion orientieren. Die Gesichtsausdrücke sind der wichtigste Teil der nicht-sprachlichen Kommunikation. Deshalb haben wir mit dem Mimik-Kopf begonnen.
Die Schwierigkeiten bei der Mimik-Interaktion liegen in folgenden Punkten. Erstens ist die Hardware der Schlüssel. Die Obergrenze der Mimik hängt von der Hardware ab. Der menschliche Gesicht ist von 42 komplexen Muskeln angetrieben. Der Roboter nutzt Motoren, um das Prinzip der Muskeln zu simulieren und die elastische Haut anzutreiben. Zweitens werden die Entscheidungen darüber, welche Mimik und Emotion in welcher Situation gemacht werden sollen, von zwei Modellen zusammen getroffen. Ein Modell ist ein reflexartiges Modell, ähnlich wie die natürlichen Reaktionen wie Nervosität im Gesicht und in der Haltung, wenn jemand nervös ist. Dies ist eine Echtzeit-, tiefere Reaktion, die kein Denken des Gehirns erfordert. Das andere Modell ist ähnlich wie der Denkprozess des Gehirns. Das große Sprachmodell ist für die logische Analyse und Denkprozesse verantwortlich.
Schließlich fragen sich viele Leute, warum wir ein graues Gesicht gewählt haben. Einerseits ist es, um die "Uncanny Valley"-Effekt zu vermeiden und die Unbehaglichkeit zu reduzieren. Andererseits denken wir, dass der Roboter nicht genau wie ein Mensch aussehen sollte, sonst könnten es in Zukunft ethische Probleme geben. Wir möchten eine universelle Gesichtsform finden, die unabhängig von Geschlecht und Rasse ist und von der ganzen Welt akzeptiert werden kann. Das momentane graue Gesicht ist ein Schritt in diesem Prozess.
36Kr: Was ist nach Ansicht der beiden der Kernvorteil zukünftiger Sieger in diesem Bereich? Wie kann man ein echtes AI-Projekt erkennen?
Guo Hao: Zunächst muss man bei Hardwareprodukten darauf achten, ob die technische Grundlage etwas Besonderes hat und ob es leicht nachgebaut werden kann. Beispielsweise ist die Mimik-Generierungstechnologie eine Kombination aus mechanischer Struktur, Software-Algorithmen und generativen Mimik-Antrieben. Es gibt viele Kerntechnologien, die nur durch Zeit und Erfahrung entwickelt werden können, sogenannte Know-How. Diese sind schwer in kurzer Zeit zu knacken oder zu kopieren. Dies ist der Wert eines Projektes.
Zurzeit möchten viele Softwareprodukte sich mit AI verbinden. Man kann es von folgenden Aspekten beurteilen:
Erstens, die Algorithmus- und Modellfähigkeit. Der Schlüssel liegt darin, ob das Produkt die Fähigkeit hat, die Algorithmen autonom zu optimieren, anstatt nur öffentliche APIs aufzurufen oder Prompts anzupassen, um das Produkt zu optimieren. Der Unterschied zwischen diesen beiden Ansätzen ist sehr groß. Die Fähigkeit zur Algorithmusoptimierung ist die Grundlage für die eigene Kernkompetenz.
Zweitens, die Datenakkumulationsfähigkeit. Für AI-bezogene vertikale Bereiche sind Daten von entscheidender Bedeutung. Wenn ein Produkt keine Fähigkeit zur Generierung neuer Daten