JD hat sich auch an den "Tisch" der Roboter gesetzt.
Bei einer hochrangigen Unternehmensbesprechung von JD.com brachte He Xiaodong, der stellvertretende Direktor des Exploratory Research Institute und leitender Vizepräsident der Gruppe, einen Roboterhund in den Konferenzraum. Dies ist kein gewöhnlicher Roboter. Während er He Xiaodong folgt, interagiert er mit den Anwesenden in natürlicher Sprache und plaudert mit ihnen.
Nach der Besprechung umringten viele High-Level-Manager diesen "sprechenden und beweglichen" Roboterhaustier. Einige sagten sogar vor Ort: "Ich möchte auch einen kaufen."
Hinter diesem scheinbar entspannten "Hundebesuch" steckt ein Signal dafür, dass JD.com in der Branche von KI und Robotik aktiv werden möchte. Auf der Welt-Künstliche-Intelligenz-Konferenz (WAIC) 2025 hat JD.com offiziell die Brandmarke "JoyInside" für ein Embodied AI - Plattform vorgestellt und mit vielen Robotikunternehmen Kooperationen eingegangen. Kürzlich hat es auch angekündigt, in drei Robotikunternehmen zu investieren: Qianxun Intelligence, Zhujidongli und Zhongqing Robotics.
Im Jahr 2025 ist Embodied AI zum heißesten neuen Schlachtfeld in der KI-Branche geworden. Auf der gerade beendeten WAIC war die Kombination von Large Language Models und Robotern das Hauptthema. Die Messe war fast wie eine Show der Roboterkünste. Große Technologiekonzerne haben humanoide Roboter, Vierbeinerroboter, KI-Spielzeuge und intelligente Agentensysteme gezeigt, um die nächste Welle der KI-Implementierung zu ergreifen.
Nach Ansicht von He Xiaodong ist Embodied AI nicht einfach "ein Large Language Model auf einen Roboter setzen", sondern ein komplexes Systemprojekt, das "Gehirn (Intelligenz) + Kleinhirn (Bewegung) + Eingabe-Ausgabe-Interaktion" umfasst. Es ist viel schwieriger, als man denkt, von der Laborwelt in die Haushalte und Alltagssituationen zu gelangen.
"Die Öffentlichkeit hat hohe Erwartungen an die KI, daher kann es an einem Punkt schnell entzünden. Aber um es tatsächlich umzusetzen, zum Beispiel in die Haushalte zu bringen, gibt es noch viele Probleme zu lösen. Die Large Language Models selbst sind noch nicht ausreichend mit Robotern integriert." sagte He Xiaodong den Medien wie Jiemian News.
Aber er ist persönlich eher optimistisch in Bezug auf die Branche: "Sobald eine Branche in die Hände der Benutzer kommt, insbesondere die Endverbraucher, wird die Iterationsgeschwindigkeit sehr schnell sein. So wie bei der autonomen Fahrweise, wird es auch bei Robotern ähnlich verlaufen."
Die "Dreierkombination" von Embodied AI
Wenn man Embodied AI in einem Satz zusammenfassen möchte, könnte man es als "intelligente physische Maschine" bezeichnen. Es kann ein zweibeiniger humanoider Roboter, ein vierbeiniger Hund oder auch in anderen Formen vorliegen.
He Xiaodongs Verständnis von Embodied AI ist relativ weit gefasst und beschränkt sich nicht auf humanoide Roboter. Alle Intelligenzen, die in der physischen Welt mit Benutzern interagieren können und ein gewisses Maß an Emotional- und Intelligenzquotient besitzen, gehören zu Embodied AI. Dafür sind jedoch drei Kernmodule erforderlich:
Erstens das "Kleinhirn", das die Bewegung steuert, um sicherzustellen, dass die Maschine in der physischen Welt agieren kann. "Ohne Bewegungskompetenz ist die Benutzererfahrung deutlich eingeschränkt."
Zweitens das intelligente Zentrum als "Gehirn". Nur mit Bewegungskompetenz wäre es langweilig, während das "Gehirn" die Benutzererfahrung, Interaktivität und Wahrnehmung verbessern kann.
Drittens die IO-Eingabe-Ausgabe-Interaktion. Dies ist ein oft übersehener, aber entscheidender Bestandteil. Embodied AI - Roboter beinhalten die Interaktion zwischen Roboter, Welt und Benutzer. Die Befehle und Bedürfnisse der Benutzer müssen erkannt werden, und der Roboter muss auch in der Lage sein, zu antworten.
"Viele Robotikunternehmen auf dem Markt sind gut in der Steuerung und Bewegungstechnologie, aber sie fehlen an Fähigkeiten wie Large Language Models, Sprachinteraktion und dialogfähigen Intelligenzagenten." Basierend auf dieser Erkenntnis hat JD.com JoyInside als "Embodied AI" - Plattform positioniert - "inhabend" über diesen Unternehmen, um die Lücken zu schließen.
Zurzeit hat JoyInside Kooperationen mit mehreren Unternehmen wie Fuzozo, Huohuotu, Yuanluobo AI, Xindalu, Folotoy, Luka Doctor, Zhongqing Robotics, Yun Shenchu und Magic Atom eingegangen und die Anbindung an die Large Language Model - Technologie für eine begrenzte Zeit kostenlos zugänglich gemacht.
Im Gegensatz zu den meisten Unternehmen, die mit Industrierobotern beginnen, richtet sich die Strategie von JD.com in Bezug auf Embodied AI eher auf Alltagsszenarien wie Haushalte und Begleitung. Der Grund dafür ist, dass diese Szenarien nicht nur groß und häufig sind, sondern auch der Bereich mit der höchsten Benutzerbindung und dem größten Konsumpotential sind. Sie können auch die Fähigkeit der Intelligenz zur emotionalen Bindung an Menschen besser überprüfen.
Nehmen wir den Roboterhund aus der Zusammenarbeit von JoyInside und "Yun Shenchu" als Beispiel. Dieser ursprünglich für Rohrleitungsinspektionen entwickelte Vierbeinerroboter wird jetzt zu einem interaktiven und begleitenden Haushaltshaustier. Er kann autonom gehen, plaudern und interagieren und hat auch eine gewisse Fähigkeit, Aufgaben auszuführen. He Xiaodong nennt ihn "ein wandernder Suchmaschine" oder "die Vorstufe eines Haushaltsassistenten".
"Der Raum hier wird um ein bis zwei Größenordnungen größer sein, und die Benutzererfahrung wird auch direkter sein." sagte He Xiaodong.
Er vergleicht sogar die Verbreitung von Embodied AI mit der Entwicklung von Autos: "So wie jetzt jedes Haushalt ein Auto hat, wird es vielleicht in Zukunft jedes Haushalt einen humanoiden Roboter oder einen Roboter in anderer Form geben."
Außer der Zusammenarbeit auf technischer Plattform und Produktseite beschleunigt JD.com auch die Aufbau des Embodied AI - Ökosystems durch Investitionen. Eine Woche vor der WAIC hat JD.com nacheinander die Investition in Qianxun Intelligence, LimX Dynamics und Zhongqing Robotics angekündigt und so seine Investitionen in der Branche erhöht.
In Bezug auf die Investitionsstrategie sagte He Xiaodong in einer Medienkonferenz, dass JD.com drei Kriterien betrachtet: Erstens ist Embodied AI ein strategisches Geschäftsfeld, das langfristig investiert werden sollte. Zweitens kann es in das JD-Service-Ökosystem integriert werden und die Benutzererfahrung erheblich verbessern. Drittens, solange es der Systemlogik von "Gehirn + Kleinhirn + IO" entspricht, kann es von JD.com als Kooperations- und Investitionsobjekt betrachtet werden. Er gab auch bekannt, dass der nächste Investitionsplan noch in Arbeit ist.
Technische Implementierungsprobleme müssen noch gelöst werden
Embodied AI ist zweifellos einer der heißesten Geschäftsfelder dieses Jahres. Laut Daten von IT Juzi hat es in diesem Jahr in China bereits über 110 Investitionsevents in der Embodied AI - Branche gegeben, mit einem Gesamtinvestitionsvolumen von über 12 Milliarden Yuan.
Auf der gerade beendeten WAIC 2025 waren Roboter unbestritten im Mittelpunkt der Aufmerksamkeit. Verschiedene Roboter haben "Fähigkeitsmeisterschaften" durchgeführt, von Wagenrollen und Springen bis hin zu präzisen Manipulationen. Die technischen Präsentationen haben viel Aufmerksamkeit erregt. Hinter dieser Begeisterung stecken die hohen Erwartungen der Branche an Embodied AI, aber es hat auch die Diskussion darüber ausgelöst, ob das Konzept "zu heiß" ist.
He Xiaodong ist der Meinung, dass die hohen Erwartungen der Öffentlichkeit an die KI-Technologie dazu führen können, dass ein bestimmtes Gebiet schnell "explodiert", aber für die tatsächliche Implementierung von Embodied AI - beispielsweise in Haushalten - gibt es noch viele Probleme zu lösen.
"Das typischste Beispiel ist die Handhabung." Er gab ein Beispiel: "Die Hand ist zwar klein, aber sie hat viele Gelenke und eine viel höhere Beweglichkeit als der Fuß. Viele Roboter können jetzt Vorwärts- und Rückwärtsrollen ausführen, aber in Bezug auf die Freiheitsgrade und Schwierigkeit ist es möglicherweise noch nicht so komplex wie die Manipulation einer Hand. Wenn Roboter Dienstleistungen erbringen sollen, ist die präzise Steuerung der Hand ein unumgängliches Hindernis."
Eine weitere Herausforderung ist die tiefe Integration von Large Language Models und Robotern. Zum Beispiel die Raumintelligenz, damit der Roboter nach dem Eintritt in den Raum schnell erkennt, wer wo ist; oder die Semantikverstehen, damit er, wenn man ihm sagt, das Wasserglas auf dem Tisch zu bringen, genau weiß, welches Wasserglas gemeint ist. Diese scheinbar einfachen Szenarien beinhalten hinter den Kulissen mehrere Technologien wie visuelle Erkennung, semantische Inferenz und Raummodellierung, die bisher noch nicht vollständig gelöst sind.
Trotz dieser Herausforderungen ist He Xiaodong optimistisch in Bezug auf die Zukunft der Branche. Er nahm die autonome Fahrweise als Beispiel. Anfangs stritt man darüber, ob man zuerst L2 oder L3 entwickeln sollte und ob man simulierte oder echte Daten verwenden sollte. Aber Tesla hat zuerst L2 eingeführt und mit Kameras eine große Menge echter Daten gesammelt. In den letzten zwei Jahren hat sich die Technologie deutlich verbessert. Roboter werden möglicherweise einen ähnlichen Weg gehen - zuerst in konkrete Szenarien implementieren, Benutzerdaten sammeln und dann schnell iterieren.
Nach seiner Meinung könnte der Bereich der Roboterhaustiere für Endverbraucher der erste Bereich sein, der explodiert. "Das Halten eines echten Hundes ist teuer und aufwändig. Man muss ihn füttern, spazieren führen und die Hygiene betreuen. Ein Roboterhund mit hoher Emotionalintelligenz kann eine ähnliche Begleitung bieten, ohne dass man sich um ihn kümmern muss. Das Marktpotential ist sehr groß."
Beim Eintritt von Embodied AI in den Endverbrauchermarkt ist die Kontrolle der Token - Kosten und die kommerzielle Monetarisierung auch ein Problem, das Unternehmen allgemein zu lösen haben.
Sun Zhaozhi, der Gründer von Luobo Intelligence, dem Entwicklungsunternehmen von Fuzozo, sagte in einem Interview mit Medien wie Jiemian News, dass seit der Veröffentlichung des Produkts die durchschnittliche tägliche Nutzungsdauer der Benutzer 1 - 2 Stunden beträgt und der Token - Verbrauch (die Kosten für den Aufruf des Large Language Models) sehr hoch ist. "Dieses Produkt ist kein einfacher Dialogapparat, sondern es gibt dahinter einen komplexen Agentenmechanismus und Fähigkeiten zur Emotions- und Gedächtnisverwaltung. Bei jeder Interaktion werden mehrere Modelle aufgerufen."
"Momentan verdient kein Unternehmen Geld mit dem Verkauf von Tokens." sagte He Xiaodong. "Wenn man sich nur auf den Token - Preis konzentriert, wird der Preis immer niedriger und die Qualität immer schlechter, was ein ungesundes Ökosystem schafft. So wie in der Frühzeit der Preiswettbewerb bei intelligenten Lautsprechern, am Ende hat man die Benutzererfahrung hintan gestellt."
Bei der Preisgestaltung wird Fuzozo ein "monatliches Abonnementmodell" anstelle eines einmaligen Kaufs anwenden. "Wir hoffen, ein Modell ähnlich wie amerikanischer SaaS - Unternehmen zu schaffen."
Auf den ersten Blick ist zwar die Welle von Embodied AI gekommen, aber es ist noch ein langer Weg von einem erfolgreichen Produkt zu einem wirklich nutzbaren System.
Dieser Artikel stammt von "Jiemian News", Autor: Zha Qinjun, Redakteur: Wen Shuqi. Veröffentlicht von 36Kr mit Genehmigung.