Ein Jahr nach Gründung eines Robotik - Unternehmens von ehemaligen leitenden Mitarbeitern der Xiaomi Fahrerassistenztechnik: Pragmatismus, Kostenschätzung und das Gesetz der zehntausend Stunden der Embodiment
Text | Fu Chong
Redaktion | Su Jianxun
Schnell und praktisch - so ist der Arbeitsstil von Liu Fang, dem ehemaligen Leiter der Xiaomi Fahrerassistenztechnik und Gründer von Amio Robotics. Im September 2024 gründete er Amio, und nur ein Jahr später wurden die ersten Roboterprodukte von Amio in die Produktionslinien der Kunden integriert.
Laut exklusiven Informationen von "Intelligent Emergence" hat Amio seit 2025 die Seed - Runde und die Angel - Runde der Finanzierung abgeschlossen. Bei der Seed - Runde waren Anker Innovations und Xinglian Capital die gemeinsamen Lead - Investoren, gefolgt von Sunwoda und Xianfeng Changqing. Bei der Angel - Runde beteiligten sich CICC Capital und Junshan Investment, und der alte Aktionär Xinglian Capital hat seine Investition erhöht. Das Unternehmen hat insgesamt fast 200 Millionen Yuan an Kapital beschafft, und Yuefeng Capital fungierte als Finanzberater für diese Runde.
"Auf dem chinesischen Markt gibt es keine technischen Geheimnisse. Am Ende geht es darum, die Bedürfnisse der Kunden kontinuierlich zu erfüllen und so eine Bindung an die Kunden herzustellen." sagte Liu Fang gegenüber "Intelligent Emergence".
Liu Fang trat 2012 in die noch gegründende Xiaomi ein. In 13 Jahren war er für mehrere Bereiche wie das Mobiltelefon - Betriebssystem, AI - Hardware (Xiaomi Smart Speaker, Übersetzer, Fahrzeugrückspiegel usw.) und Fahrerassistenzsysteme verantwortlich und erlebte den Aufbau vieler Geschäfte von Grund auf. Diese Erfahrungen haben ihn zu einem Menschen gemacht, der auf Kosten, Kunden und maximale Effizienz Wert legt.
Liu Fang hat diesen Geschäftsdenkweise auch in sein Startup - Projekt eingebracht, insbesondere in das zentrale Thema "Anwendungsfälle für Roboter".
Vor der Gründung von Amio hat Liu Fang umfangreiche Marktanalysen durchgeführt. Er hat festgestellt, dass drei Kriterien besonders wichtig sind: Es muss ein klarer Bedarf bestehen; Die AI - Technologie muss signifikante Verbesserungen bringen; Es muss ein klarer Return on Investment (ROI) vorliegen.
Nach Ansicht von Liu Fang soll der Embodied AI in der Industrie nicht die Automatisierung ersetzen, sondern es gibt Bedürfnisse, die der Embodied AI dort befriedigen kann, wo die Arbeitskosten zu hoch sind oder die Automatisierung Schwierigkeiten hat.
Obwohl die monatlichen Löhne der chinesischen Arbeiter nicht hoch sind, besteht ein erheblicher Engpass bei der Einstellung von Arbeitskräften und eine hohe Fluktuation. Gleichzeitig steigen die Bestellungen in den Fabriken für kleine Chargen und schnelle Produktwechsel. Die Umrüstung der bestehenden automatisierten Produktionslinien ist teuer, und der Embodied AI, der schneller lernt, eignet sich besser für die Produktion neuer Produkte.
Amio plant zunächst, die Arbeitsgänge wie Sortieren, Montieren und Prüfen in der Fertigungsindustrie wie der 3C - Branche zu übernehmen, bei denen die traditionellen Fließbänder nicht effektiv arbeiten und die Arbeitskosten hoch sind.
So rechnet man: In den Fabriken an der Südostküste Chinas verdient ein Arbeiter monatlich 6.000 bis 7.000 Yuan, und die jährlichen Gesamtkosten betragen normalerweise 80.000 bis 100.000 Yuan. Bei Dreischichtbetrieb kostet ein Arbeitsplatz pro Jahr 200.000 bis 300.000 Yuan.
Basierend auf dieser Rechnung hat Liu Fang den Preis eines einzelnen Amio - Roboters auf etwa 200.000 Yuan festgelegt. Laut seinen Erkenntnissen werden die Kunden den Einsatz von Embodied AI in der Fabrik für lohnend halten, wenn der Amortisationszeitraum eines Roboters auf ein bis anderthalb Jahre beschränkt werden kann. Überschreitet der Amortisationszeitraum anderthalb Jahre, zögern die Unternehmen.
Liu Fang, der in den 1980er Jahren geboren wurde, hat eine tiefere Einsicht in die Konkurrenz zwischen Konzernen und Startup - Unternehmen.
Manche sagen, dass das Ende der AI - Branche darin besteht, dass die großen Unternehmen auf den Markt kommen und alle Marktanteile einnehmen. Aber Liu Fang glaubt, dass die Netto - Gewinnmarge der Fabrikgeschäfte nicht hoch ist, und die Technologiekonzerne vielleicht nicht daran interessiert sind. Daher haben die Startup - Unternehmen noch Raum zum Überleben.
Aus einer längerfristigen Perspektive sieht Liu Fang, dass die Verschiebung der chinesischen Fabrikkapazitäten aufgrund geopolitischer Faktoren auch Chancen für die Expansion des chinesischen Embodied AI ins Ausland bietet.
Kürzlich hat "Intelligent Emergence" Liu Fang interviewt. Er hat uns seine Beobachtungen über die Ermittlung von Anwendungsfällen für Embodied AI sowie seine Ansichten über die zukünftige Technologie - und Branchenentwicklung geteilt. Das Interview wurde vom Autor bearbeitet.
△Liu Fang, Gründer von Amio, Foto: Interviewer
Überlegungen zur To - C - Markteintritts, aber kein klarer Bedarf erkennbar
Intelligent Emergence: Warum haben Sie für Ihr Startup im Bereich Embodied AI die Fabrikbranche gewählt?
Liu Fang: Vor meiner Gründung von Amio letzten Jahr habe ich viel Zeit für Marktanalysen aufgewendet. Ich habe festgestellt, dass ich einen Anwendungsfall finden musste, bei dem es einen klaren Bedarf gibt und der ROI (Return on Investment) gerechnet werden kann.
Ehrlich gesagt möchte jeder in den To - C - Bereich gehen, denn die Geschichten klingen gut und es gibt viel Raum für die Vorstellungskraft. Aber unsere Untersuchungen haben gezeigt, dass die Technologie und die Kosten derzeit nicht ausreichen.
Nehmen wir beispielsweise den Haushaltsdienstleistungssektor. In chinesischen Familien gibt es oft ältere Menschen, und die Stundenlöhne für Haushaltshilfen sind nicht allzu hoch. Ich denke immer noch, dass es in der Mensch - Maschine - Interaktion neben der Technologie auch emotionale und moralische Hürden gibt, die die Benutzer überwinden müssen, um Roboter wirklich zu akzeptieren.
Beim Besuch in Japan habe ich festgestellt, dass die hochwertige Dienstleistungsbranche dort zwar gut entwickelt ist, aber in Situationen, in denen Effizienz und ROI im Vordergrund stehen, verwenden japanische Restaurants oft automatische Bestellmaschinen anstelle von Menschen. Wenn die Gäste bereit sind, mehr zu zahlen, um einen guten Service zu erhalten, sollte dieser dennoch von Menschen geleistet werden.
Im Gegensatz dazu ist die Logik in der Industrie sehr klar. Die Arbeitskosten für einen Arbeitsplatz betragen etwa 100.000 Yuan pro Jahr, und bei Dreischichtbetrieb sind es 300.000 Yuan. Wenn wir einen Roboter für etwa 200.000 Yuan anbieten können, der 2 bis 2,5 Menschen ersetzen kann, können die Kunden ihren Investment binnen ein bis zwei Jahren amortisieren. Das ist der Grund, warum sie schnell beschließen können, zu kaufen.
Intelligent Emergence: Warum haben Sie sich in den vielen industriellen Anwendungsfällen für die 3C - Elektronikfertigung entschieden? Liu Fang: Wir wählen die Anwendungsfälle anhand einiger Kernkriterien: 1) Es muss ein klarer Bedarf bestehen; 2) Die AI - Technologie muss signifikante Verbesserungen bringen; 3) Es muss ein klarer Return on Investment (ROI) vorliegen.
Die 3C - Fertigungsindustrie ist arbeitsintensiv, und Fabriken mit Tausenden von Arbeitern sind keine Seltenheit. Die Arbeitsplätze sind konzentriert, was die Implementierung erleichtert. Darüber hinaus machen die Arbeitskosten in diesem Bereich 12 % bis 15 % der Gesamtkosten aus, was ein beträchtlicher Betrag ist. Daher haben die Unternehmen die Fähigkeit und die Motivation, ihre Anlagen zu modernisieren.
Intelligent Emergence: Sie glauben, dass die täglichen, sich wiederholenden Aufgaben in der Fabrikproduktion bis Ende 2026 durch Embodied AI ersetzt werden können, während komplexe Aufgaben noch ein bis zwei Jahre dauern werden. Wie haben Sie diesen Zeitplan berechnet?
Liu Fang: Dies basiert hauptsächlich auf der Zeit für die Datensammlung und die Anpassung der Implementierung und des Debugging.
Ich denke, dass eine Gesamtdatenmenge von Tausenden von Stunden erforderlich ist, damit die Roboter komplexe Aufgaben wie die flexible Montage bewältigen können.
Dieses Jahr planen wir, Tausende von Stunden an Daten zu sammeln, und bis Ende nächsten Jahres möchten wir eine Datenmenge im Bereich von Zehntausenden von Stunden erreichen. Diese Datenmenge ist die Grundlage für das Training von Embodied AI für Aufgaben wie die starre Montage.
△Amio - Roboter, Foto: Interviewer
Ein "schneller Lerner" sein, nicht ein "Universalheld"
Intelligent Emergence: Wie denken Sie über die "technologischen Barrieren" von Embodied AI nach?
Liu Fang: In China gibt es keine technischen Geheimnisse. Am Ende geht es darum, wie man die tatsächlichen Probleme der Kunden lösen kann und wie man eine langfristige Beziehung zu den Kundenherstellen kann. Unsere Stärke liegt darin, so schnell wie möglich die richtigen Entscheidungen zu treffen.
Anstatt einen "Universalroboter" zu entwickeln, der von Anfang an alles kann, möchten wir lieber, dass die Roboter schnelle Lerner sind. Unser Kernziel ist es, dass die Roboter an einem Arbeitsplatz "schnell lernen".
Wir haben frühzeitig eine Datenstrategie auf Basis von "erster - Person - Videos" festgelegt. Einfach ausgedrückt, lassen wir die Arbeiter Kameras tragen, während sie arbeiten, und die Roboter lernen die menschlichen Handlungen durch das Anschauen dieser Videos. So wird die Arbeit der Arbeiter am wenigsten gestört, und wir können auch echte Arbeitsvideos aus erster Person sammeln.
Bei Amio beträgt das Verhältnis von Videodaten zu echten Roboter - Daten etwa 6:1. Die Videos machen den größten Teil unserer Trainingsdaten aus, und wir verwenden nur eine kleine Menge an echten Roboter - Daten zur Kalibrierung und Feinabstimmung.
Das ist wie bei einem Neuling, der durch das Anschauen von Aufnahmen eines erfahrenen Arbeiters und wenigen praktischen Übungen schnell in der Lage ist, die Arbeit zu übernehmen. Unser Ziel ist es, die Implementierungszeit für einen neuen Arbeitsplatz von Monaten auf weniger als eine Woche zu verkürzen.
Intelligent Emergence: Also streben Sie nicht von Anfang an nach einer umfassenderen Fähigkeit der Roboter?
Liu Fang: Wir glauben an das Daten - Flywheel - Konzept, aber wir sind nicht blind auf Größe fixiert. Wir sind uns eher der Kraft des rotierenden Flywheels bewusst.
Im vertikalen Bereich braucht der Embodied AI "Spezialität" und "Schnelligkeit" bei bestimmten Problemen. Er muss schnell eine Aufgabe erlernen und in der Praxis lernen.
Wenn ein Roboter mehrere Arbeitsgänge gelernt hat, kann er in der Fabrik eine relativ allgemeine Anwendbarkeit entwickeln.
Intelligent Emergence: Wie wird das "Gehirn" und das Modell von Amio trainiert? Welche besonderen Überlegungen hat Amio in Bezug auf das Reinforcement Learning?
Liu Fang: Bei großen Entscheidungen und Pfadplanungen verwenden wir das VLA - Paradigma, und bei den feinen Strategien in der Endphase verwenden wir Reinforcement Learning.
Es ist erwähnenswert, dass unser Reinforcement Learning hauptsächlich "echtes Roboter - Reinforcement Learning" ist, nicht das in einer Simulationsumgebung. Denn die Simulation kann die Kraftfeedback und alle Details der realen Welt nicht genau simulieren.
Das echte Roboter - Reinforcement Learning wird verwendet, um zwei Probleme zu lösen: Einmal die feine Greif - und Montagearbeit in den letzten Millimetern; und zweitens die Fähigkeit zur Selbstkorrektur bei Ausnahmen.
Beispielsweise kann der Embodied AI in den Simulationsdaten grob verstehen, wie eine Aktion ausgeführt wird, aber erst in der praktischen Anwendung weiß er genau, ob die Aktion korrekt ausgeführt wurde. Daher kann der Roboter die Aufgabe besser erlernen, wenn er in der realen Umgebung das echte Roboter - Reinforcement Learning macht.
Intelligent Emergence: Manche denken, dass es beim Einsatz von Embodied AI in der Fabrik Schwierigkeiten bei der Datensicherheit (schwierige Rückübertragung der Kundendaten) und einem niedrigeren Fehlertoleranzgrad gibt. Wie überwinden Sie diese Probleme?
Liu Fang: Zunächst einmal haben die meisten unserer derzeitigen Partnerfabriken zwischen 10.000 und 20.000 Beschäftigte. Sie können eine gewisse Menge an Arbeitskräften - Daten liefern und sind eher bereit, mit uns zusammenzuarbeiten als viele Super - Großfabriken. Das heißt, unsere Kunden sind derzeit noch bereit, ihre Daten freizugeben, um die Datensammlung über mehrere Fabriken hinweg für das Modelltraining zu unterstützen.
Wenn später das grundlegende Modell trainiert ist und wir Aufträge von Unternehmen mit strengen Datenschutzanforderungen erhalten, können wir dann die spezifischen Fabrikdaten sammeln und ergänzen.
Außerdem ist es wichtig zu beachten, dass die Fehlertoleranz in allen Arbeitsumgebungen für Embodied AI ähnlich ist, nicht nur in der Fabrik.
Beispielsweise läuft eine Milch - Tee - Bar ständig mit hoher Geschwindigkeit, was möglicherweise eine noch höhere Anforderung an die Fehlertoleranz darstellt als in der Fabrik. Aber die Arbeitsräume in der Fabrik sind festgelegt und die Umgebungsstruktur ist ähnlich, was für den Einsatz von Embodied AI in der gegenwärtigen Phase eher günstig ist.
Intelligent Emergence: Wie bewerten Sie weiter vorausgehende Technologien wie taktile Sensorik und Weltmodelle?
Liu Fang: Embodied AI ist ein vorausgehender technologischer Bereich. Zurzeit suchen alle nach stabilen und zuverlässigen Technologien und Engineering - Lösungen.
Die Entwicklung des Embodied AI selbst ist die Entwicklung einer vorausgehenden Technologie. Zurzeit sind VLA, Weltmodelle und multimodale Sensorik die Bereiche, die wir beobachten. Neben der Anstrengung nach fortschrittlichen Technologien selbst legen wir auch Wert auf die Rolle der Technologie bei der Lösung unserer tatsächlichen Probleme. Beispielsweise sind wir derzeit an der Rolle der multimodalen Sensorik für unsere präzisen Handlungen interessiert.
Intelligent Emergence: Wie laufen die Bestellungen und die Kommerzialisierung derzeit?
Liu Fang: Wir haben derzeit drei Key - Account - Kunden. Die Roboterprodukte haben bereits einige Zeit in den Produktionslinien der Kunden mitlaufen dürfen, und die Kunden erwägen, ihre Bestellmenge zu erhöhen. Der Gesamte Fortschritt ist schneller als wir ursprünglich erwartet hatten.