Ex-Topmanager von Meituan, ByteDance und Youdao gründen ein Unternehmen und wollen einen "AI Begleitlernroboter" entwickeln | Exklusivbericht von Intelligence Emergence
Text | Wang Fangyu
Editor | Su Jianxun
Seit dem Aufstieg der großen Modelle hat es in den Bereichen AI-Begleitung, AI-Bildung und AI-Spielzeug immer wieder neue Startup-Aktivitäten gegeben. Doch was die geeignete Hardwareform und die Interaktionsmodalität betrifft, gibt es auf dem Markt noch kein erfolgreiches PMF-Beispiel.
Das im Juli 2023 gegründete Startup "Qidian Lingzhi" versucht, seine eigene Antwort zu geben. Das Gründerteam dieser Firma besteht aus drei erfahrenen Internet-Veteranen:
Der Gründer und CEO Bao Ta war früher Vizepräsident von Meituan und CTO von Meituan Finance. Noch früher war er der Generalmanager von NetEase Youdao Dictionary.
Der Hardwareverantwortliche Xu Yifei war der Plattformproduktverantwortliche für die "Dali Smart Lampe" von ByteDance.
Der Marktverantwortliche Hu Chen ist auch Mitglied des Gründerteams von NetEase Youdao.
Bao Ta, Gründer und CEO von Qidian Lingzhi Bildquelle: Unternehmensgenehmigung
Exclusive von "Intelligent Emergence" erfahren: "Qidian Lingzhi" hat kürzlich eine Angel-Runde von mehreren Millionen Yuan abgeschlossen, die von Xinglian Capital (Z-Fonds) geleitet wurde. Das erste Produkt der Firma - ein AI-Englisch-Lernbegleiter-Roboter - ist auf Vorschulkinder im Alter von 3 bis 8 Jahren ausgerichtet. Das Produkt ist bereits entwickelt und befindet sich derzeit in der internen Testphase.
Als Bao Ta im September 2023 mit der AI-Hardware-Entrepreneurship begann, war die Produktpositionierung klar und eindeutig: Er wollte ein AI-Hardwareprodukt für das Englischlernen von Vorschulkindern schaffen.
Seine Einschätzung ist, dass der chinesische Markt für Bildungshardware für jüngere Kinder groß ist und das Wettbewerbsgeschehen dispergiert ist. Die großen AI-Modelle bringen eine "Chance zur Aufrüstung von Funktionsgeräten zu Smartphones" mit sich. Der Grund, warum Englisch als Einstieg gewählt wurde, ist, dass chinesische Eltern von Vorschulkindern am meisten Geld für Englischbildung ausgeben und es auch am ehesten tun wollen.
Aber als es darum ging, das Hardwareprodukt konkret zu definieren, stand er und sein Team vor Schwierigkeiten: Es gibt unzählige Kombinationen von Formen, Funktionen und Interaktionsarten für AI-Bildungs- und Begleithardware. Wie soll man sich entscheiden und was soll man aufgeben?
Seine früheren Arbeitserfahrungen haben Bao Ta besonders vorsichtig gemacht, wenn es um solche Fragen geht. Bei Meituan hatte er einmal einen großen Fehler bei der Hardware gemacht.
Damals war er als Technologieverantwortlicher von Meituan Finance an dem berühmten Kampf um die offline-Zahlung von Händlern beteiligt. Doch aufgrund der nicht vorhergesehenen Explosion der Marktbedürfnisse hatte es Probleme mit der Lieferkette, wie Mangel an Waren und steigende Preise für Schlüsselkomponenten. Dies war für ein Geschäft mit geringen Margen ein beträchtlicher "Fehler".
Diese negative Erfahrung hat Bao Ta gut im Gedächtnis und hat ihm auch eine gewisse Achtung vor Hardwareprodukten eingeflößt: "Hardware ist nicht wie Software. Die Fehlertoleranz ist hoch. Sobald das Produkt geformt und festgelegt ist, kann man es nicht mehr rückgängig machen."
Deshalb haben Bao Ta und sein Team viel Zeit in die Benutzerforschung und Produkttests investiert und mehrere Produktkonzepte abgelehnt.
Bao Ta erzählte uns, dass er kurz nach der Gründung der Firma sein Team mit der Testung der derzeit vorherrschenden Form von AI-Spielzeugen beauftragt hatte, nämlich einem Plüschtier mit einer Sprachdialogbox, und mit vollständiger künstlicher Simulation von AI schnell einen Testlauf durchgeführt hatte. Am Ende stellte sich heraus, dass die Kinder bald an dem Produkt kein Interesse mehr hatten.
Bei den folgenden Produktideen, einschließlich einiger Musterprodukte, hat "Qidian Lingzhi" diese Methode für die Validierung verwendet. Alle diese Formen wurden schließlich verworfen.
Um die geeignete Produktform zu finden, haben Bao Ta und sein Team in den letzten mehr als einem Jahr Hunderte von Familien in chinesischen Großstädten besucht und befragt. Sie haben die Testprodukte in die Häuser der Benutzer geschickt und die Benutzer mehrere Wochen lang damit arbeiten lassen. Am Ende haben sie anhand von Indikatoren wie Word-of-Mouth und Retentionsrate entschieden, welche Produktfunktionen behalten und welche entfernt werden sollten, um das Produkt zu verbessern.
Das Team kam schließlich zu dem Schluss: Um die langfristige Interessen von jüngeren Kindern an AI-Bildungsprodukten zu halten, sind drei Kernbedingungen unerlässlich.
Erstens müssen es mehrere Modalitäten wie Sprache, Sicht und Berührung geben, um ein reiches Interaktionserlebnis zu bieten.
Zweitens muss ein Inhaltsystem aufgebaut werden, um die Kinder mit Inhalten zu versorgen und zu leiten.
Drittens muss das Hardwareprodukt eine Gestalt haben, die Emotionen weckt und den Geschmack und die Vorlieben der Kinder entspricht.
"Auf dem derzeitigen Markt gibt es bereits Produkte, die sich auf ein oder zwei dieser Aspekte konzentrieren. Aber ich denke, nur wenn alle drei Aspekte vorhanden sind, kann man die langfristige Bindung von Kindern an das Produkt erreichen." sagte Bao Ta gegenüber "Intelligent Emergence".
Darum hat "Qidian Lingzhi" erst fast zwei Jahre nach der Gründung der Firma die endgültige Form des ersten Produkts festgelegt - ein Desktop-Roboter mit einem Bildschirm, einer niedlichen physischen Gestalt und der Fähigkeit zur AI-Mehrmodalitätsinteraktion.
Für die Verkaufszahlen dieses Produkts hat Bao Ta kein vorgegebenes Ziel. Er glaubt, dass es genug ist, wenn die Benutzer das Produkt wirklich mögen und es solide Benutzerdaten und Feedback gibt. Dies reicht aus, um das Unternehmen weiterwachsen zu lassen und das Produkt zu vervollkommnen.
"Es ist nicht mehr die Zeit, in der man mit einer PowerPoint-Präsentation Finanzmittel aufbringen kann. Wir investieren erst die Zeit, um das Produkt herzustellen, und bringen dann einen realen Roboter und echte Benutzerfeedback vor, damit die Investoren sich sicherer fühlen und gerne mitmachen." sagte Bao Ta.
Dies war Bao Tas erstes öffentliches Statement seit seinem Weggang von Meituan. Im Folgenden finden Sie das Interview zwischen "Intelligent Emergence" und Bao Ta, nachbearbeitet und editiert:
Für die Bildungshardware von Vorschulkindern gibt es eine Chance zur Aufrüstung von Funktionsgeräten zu Smartphones
"Intelligent Emergence": Ihre bisherige Laufbahn umfasst NetEase Youdao Dictionary und Meituan Finance. Warum haben Sie sich für die AI-Bildung entschieden?
Bao Ta: Ich habe an der Fakultät für Künstliche Intelligenz der Tsinghua-Universität studiert. Nach meinem Abschluss arbeitete ich zunächst am Microsoft Research Asia und gründete dann mit Freunden Youdao.
Später bei Meituan habe ich Big Data und AI eingesetzt, um Probleme wie die Marketingeffizienz und die präzise Benutzererkennung im Finanzbereich zu lösen. Mein Studium und meine Karriere waren immer eng mit AI verbunden.
Nach dem Aufstieg der großen AI-Modelle habe ich festgestellt, dass dies eine noch größere Chance als der Suchmaschinenboom und das Mobile-Internet ist, eher wie eine industrielle Revolution. Ich musste diese Chance nutzen. Deshalb habe ich im September 2023 mit der Entrepreneurship begonnen. Angesichts meiner Einschätzung des Marktes und der Branche glaube ich, dass die Kombination von AI-Anwendungen und Bildung mit großen AI-Modellen sehr vielversprechend ist.
"Intelligent Emergence": Welche Chancen sehen Sie im Bereich der AI-Bildungshardware?
Bao Ta: Wir haben festgestellt, dass es für Kinder, insbesondere jüngere Kinder, keine besonders geeignete Bildungshardware gibt.
Die elektronischen Geräte, die Kinder am häufigsten benutzen, wie z.B. Tablets, machen die Eltern Sorgen wegen der Gefahr der Sucht und der Auswirkungen auf die Sehkraft. Deshalb beschränken sie in der Regel die Nutzungszeit ihrer Kinder.
Ein beträchtlicher Anteil besteht aus verschiedenen Einzelfunktionsgeräten für Kinder, wie z.B. Geschichtenspielzeug, Ablesepen und Denkspielzeug. Sie haben jeweils ihre eigenen Anwendungsfälle, aber es gibt auch Herausforderungen bei der individualisierten Lernweise und der tiefgreifenden interaktiven Lernweise.
Nach der Entstehung der großen AI-Modelle haben wir die Chance, die Aufmerksamkeit von Kindern besser zu fangen und die Lerninhalte in ihre Interessen zu integrieren. Deshalb denke ich, dass es auf dem Markt für die Bildungshardware von Vorschulkindern eine Lücke gibt, ähnlich wie die Chance zur Aufrüstung von Funktionsgeräten zu Smartphones.
Was die Marktgröße betrifft, ist der Markt für die Interessenbildung von Vorschulkindern zwar nicht so dringend wie der Markt für die Pr,
"Intelligent Emergence": Welche Rolle spielt die große AI-Modelltechnologie bei der Schließung dieser Lücke?
Bao Ta: Seit Beginn unseres Unternehmens haben wir uns besonders auf die Verbesserung der Interaktion von Bildungshardware durch die AI-Mehrmodalitätsfähigkeit konzentriert. Wenn das Hardwareprodukt die Kinder "sehen", ihre Bewegungen, die Gegenstände in ihren Händen und die Umgebung erkennen und daraufhin eine aktive Interaktion eingehen kann, wird die Interaktion reicher und lebendiger. Zudem ist die Eingabemethode nicht auf das Tippen auf den Bildschirm beschränkt, was die Interaktionsschwelle erheblich senkt.
Zum Beispiel: Wenn es einen Roboter auf dem Esstisch gibt und ein Kind Pizza isst, kann der Roboter die Situation erkennen und initiativ eine Konversation beginnen: "What are you eating?" Diese Art von Interaktion ist ähnlich wie die eines echten Fremdsprachenlehrers. Dies ist das Ergebnis der Kombination von Großmodelltechnologie und Mehrmodalitätsinteraktion, das wir anstreben.
"Intelligent Emergence": Ihr Produkt heißt AI-Lernbegleiter-Roboter und hebt die Begleitfunktion hervor. Wie verstehen Sie das Konzept der Begleitung?
Bao Ta: Das Konzept der Begleitung ist für die Benutzer eher vage, und unterschiedliche Menschen haben unterschiedliche Vorstellungen davon.
Was ein gutes Begleitprodukt für Vorschulkinder ist, denken wir, dass Begleitung mindestens drei verschiedene Werte hat: Spielen zusammen, Lernen zusammen und das Alltagsleben begleiten, einschließlich emotionaler Gespräche. Unterschiedliche Unternehmen legen unterschiedlichen Schwerpunkt auf diese drei Werte.
Unsere Anforderungen an uns selbst sind, dass das Produkt von den Kindern gerne gespielt werden soll, was ein wichtiger Ausgangspunkt ist, und dass die Eltern seinen Wert anerkennen und bereit sein sollen, dafür zu bezahlen. Wir haben viele Kompromisse bei der allgemeinen Begleitrichtung gemacht und uns schließlich auf die Begleitung mit einem Schwerpunkt auf Englischbildung konzentriert.
"Intelligent Emergence": Warum haben Sie Englischbildung als Einstieg gewählt, anstatt Enzyklopädien, Geschichten erzählen oder Interessenentdeckung?
Bao Ta: Wir haben uns ausschließlich von den Nutzerwerten geleitet.
Unsere Beobachtungen zeigen, dass chinesische Eltern von Vorschulkindern gerne Geld für Bildung ausgeben, und der Bereich, in dem sie am meisten investieren, ist die Englischbildung, sei es durch private Fremdsprachenkurse, verschiedene Kurse oder das Kauf von intelligenten Lernhardwareprodukten für Englisch. Wir denken, dass der Markt hier groß ist und die Nachfrage dringend ist.
Die Abkürzung "AI-Großmodell" entspricht eigentlich dem Originalbegriff LLM (Large Language Model) - Großsprachmodell. Daher ist es von Natur aus stark in der Sprachfähigkeit und besser als die Englischkenntnisse der meisten chinesischen Eltern. Es passt sehr gut zur Englischbildung, was bereits bei einigen Produkten wie der Fremdsprachenlehrer-Dialogfunktion von Duolingo für Erwachsene gezeigt wurde.
"Intelligent Emergence": Gibt es einen Widerspruch zwischen Begleitung und Lernen? Ist das Konzept "Lernen durch Spielen" realisierbar?
Bao Ta: Wir denken, dass es realisierbar ist. Das Xiaoyuwang-Lerncomputer war beispielsweise für unsere Generation ein sehr erfolgreiches Produkt, das Lernen und Spaß kombiniert hat und auch gut verkauft wurde. Es war damals das beste Bildungsmittel für Kinder, um sich mit der digitalen Welt vertraut zu machen. Auch heute gibt es immer noch die Chance, ein Bildungsprodukt zu schaffen, das Lernen und Spaß vereint, um den Kindern den Zugang zur AGI-Ära zu erleichtern.
Drei Kernbedingungen sind erforderlich, um die Interessen von Vorschulkindern zu fangen
"Intelligent Emergence": Ist Ihr erstes Produkt fertig? Wie sieht es aus?
Bao Ta: Unser Prototyp ist fertig und befindet sich derzeit in der intensiven internen Testphase. Es ist noch nicht der Zeitpunkt, ihn der Öffentlichkeit vorzustellen.
Das Produkt ist im Großen und Ganzen ein AI-Hardwareprodukt in Form eines niedlichen Cartoon-Roboters mit einem Bildschirm und der Fähigkeit zur Mehrmodalitätsinteraktion. Wir nennen ihn AI-Lernbegleiter-Roboter. Da die Kernfunktion das Lernen begleiten ist, haben wir keine Funktionen wie die Selbstbewegung eines Roboterdogs in das Produkt integriert.
"Intelligent Emergence": Ihre Firma wurde im Juli 2023 gegründet. Haben Sie in dieser Zeit immer am Produkt gearbeitet?
Bao Ta: Tatsächlich ist es gerade zwei Jahre vergangen, seit wir das Team zusammengetragen haben. Wir sind ein Gründerteam, das bereits an der Entwicklung von Produkten mit hohem Umsatz beteiligt war. Wir haben hohe Anforderungen an das PMF (Product-Market Fit). Da es sich um ein Produkt mit komplexer Form und Funktion handelt, mussten wir das PMF neu finden.
Unsere früheren Unternehmensgründungserfahrungen haben uns gelehrt, dass wir diese Prüfung zunächst intern bestehen müssen, bevor wir die Verbraucher mit einer Idee belasten. Deshalb haben wir viel Zeit in die Feinschliffarbeit und die wiederholte Überprüfung des Produkts investiert, bevor es fertig war. Die zuvor erwähnten Beobachtungen und Erkenntnisse stammen aus unseren umfangreichen Benutzerforschung und Produkttests sowie aus der Exploration und Verbesserung des Produkts.
Etwa Ende 2024 haben wir uns auf einen Begleiter-Roboter mit einem Schwerpunkt auf Englischbildung konzentriert und dann mehr als ein halbes Jahr benötigt, um die erste Version des Prototyps zu entwickeln. Danach haben wir mit der internen Benutzerprüfung, der Benutzerrückmeldung und der gemeinsamen Weiterentwicklung begonnen.
Dies hängt auch mit dem technologischen Entwicklungsstand in der Branche zusammen. Wenn man einen sprechenden intelligenten Lautsprecher entwickeln würde, gäbe es wahrscheinlich schon viele gleichartige Produkte im vergangenen Jahr. Aber für uns ist die vollständige Form nur möglich, wenn die Mehrmodalitätstechnologie weiterentwickelt ist. Erst mit der Veröffentlichung von Gemini 2.0 Anfang dieses Jahres hat die Mehrmodalitätsfähigkeit in der gesamten Branche einen deutlichen Sprung gemacht, und die Benutzererfahrung konnte verbessert werden.
"Intelligent Emergence": Ihr Produkt hat eine komplexe Positionierung und viele Funktionen. Warum haben Sie sich für diese Positionierung und Form entschieden?