In China ist die Embodied Intelligence (körperliche Künstliche Intelligenz) heiß, und es wird nicht mehr einfach Musk folgen.
Die erste Welle der Einführung von Embodied AI in China hat sich still und leise eingeleitet, wobei die Anwendungsfälle und technologischen Ansätze sich von denen im Ausland unterscheiden.
Auf der Fertigungsstraße einer großen Haushaltsgerätefabrik in Shandong bewegen sich mehrere weiße Roboterarme fleißig, setzen präzise an den Schweißpunkten an und fügen die Metallrahmen von hochwertigen Waschmaschinen zusammen. Vor einigen Monaten musste dieses Arbeitsverfahren von Ingenieuren über mehrere Tage manuell eingestellt werden. Heute sind acht Embodied-AI-Roboterarme an ein "digitales Gehirn" angeschlossen und passen sich innerhalb von vier Stunden vollständig an neue Waschmaschinenmodelle an.
"Die Haushaltsgerätehersteller zeigen eine hohe Akzeptanz. Diese Arme kosten insgesamt mehrere hunderttausend Yuan und verbessern tatsächlich die Produktivität." sagte ein Produktexperte von Hualong Xunda gegenüber Digital & Intelligence Frontline. Das "Gehirn" dieses Systems stammt von Huawei Cloud's Pangu Multimodal Large Model und ist für die Aufgabezerlegung und -planung zuständig. Das "Kleinhirn" wurde von Hualong Xunda auf der Grundlage eines Open-Source-Modells selbst entwickelt und ist für die konkrete Ausführung verantwortlich. "Die Daten der Fertigungsstraße sind rar. Im nächsten Schritt müssen wir es in der praktischen Produktion lernen lassen, um es noch klüger zu machen."
Demonstration des Punktschweißens
Hinter all dies verbirgt sich ein Versuch, die flexible industrielle Fertigung durch Embodied AI neu zu gestalten. Auf zwei Konferenzen im Juni - der Beijing Zhiyuan Conference und der Huawei Developer Conference - war Embodied AI im Mittelpunkt der Aufmerksamkeit. Die Teilnehmer sahen nicht mehr nur Roboter, die sich in einer einfachen, wiederholten Bewegung bewegen, sondern "neue Spezies", die allmählich in der Lage sind, sich an Veränderungen anzupassen, Entscheidungen zu treffen und initiativ zu handeln. Die Branche steht vor einem Intelligenzsprung.
Aber dieser Sprung ist noch lange nicht am Ende. Wang Zhongyuan, Direktor des Beijing Zhiyuan Research Institutes, sagte: Das Embodied Large Model befindet sich noch in der technologischen Erkundungsphase "vor GPT - 3". "Richtung wie Simulationsdaten, Reinforcement Learning und die Fusion von "Gehirn" und "Kleinhirn" werden noch erforscht, und es hat sich noch keine einheitliche Methodik gebildet. Es gibt noch viele Hürden zu überwinden, bevor die Technologie in der Industrie umgesetzt werden kann."
"Unsere Branche ist keine luftige Branche." sagte Wang He, Gründer und CTO von Galaxy Universal. "Wenn wir nur Geschichten erzählen und keine Umsetzung vornehmen, wird dies auf lange Sicht die Branche stark schädigen. Wir brauchen die Zusammenarbeit von Wissenschaftler und Industriellen, um einige Dinge wirklich gut zu machen."
01 Die chinesische Fertigungsindustrie wird eine "Embodied AI"-Transformation erleben
Die erste Welle der industriellen Umsetzung in China hat sich still und leise in mehreren Fertigungs - und Dienstleistungsszenarien eingeleitet. Die Anwendungsfälle sind vielfältiger und sogar komplexer als die der ausländischen Giganten wie Tesla.
Schauen Sie sich das folgende Video an: Ein Roboterarm montiert eine präzise optische Faser.
In einer Demonstration, die von Huawei Cloud in Zusammenarbeit mit der Fertigungsabteilung von Huawei entwickelt wurde, vollführt ein zweiachsiger Roboter den letzten Schritt des "Farbbox - Verpackens" von Mobiltelefonen. Dieser Schritt wird derzeit noch vollständig manuell ausgeführt, und es wird versucht, ihn durch Embodied AI zu erledigen.
"In der Farbbox befinden sich nicht nur das Mobiltelefon, sondern auch Bedienungsanleitung, Kopfhörer, Ladegerät usw. Da die Teile auf der Fertigungsstraße ungeordnet angeliefert werden und die Anordnung der Zubehörteile nicht immer gleich ist, variiert der Montageschritt jedes Mal." erklärte ein Mitarbeiter von Huawei Cloud. "Sie erkunden ein System, das die Umgebung verstehen, Bewegungen planen und Entscheidungen umsetzen kann."
Warum ist die "flexible" Fertigung so wichtig? Gao Yang, Mitbegründer von Qianxun Intelligence, gab eine Erklärung: "Der Jahresverkauf von Industrierobotern liegt derzeit nur bei 540.000 Einheiten. Warum so wenig? Weil sie schlecht zu bedienen sind. Jeder Roboter muss nach der Installation im Werk zwei bis drei Monate lang programmiert werden." Mit anderen Worten, die "Intelligenz" der Roboter ist von Menschen voreingestellt.
Ähnliche Probleme treten auch in der Automobilindustrie auf. Die Stanz - und Lackierhallen sind zwar hochgradig automatisiert, aber wenn das Fahrzeugmodell gewechselt wird, dauert es mindestens sechs Monate, um die Fertigungsstraße umzurüsten. "Wenn Embodied AI in der Lage ist, die Produktionsparameter automatisch an das Fahrzeugmodell anzupassen und flexibel wie ein Mensch zu arbeiten, würde dies die Umrüstzeit erheblich verkürzen." sagte ein Mitarbeiter von Huawei Cloud.
Dafür hat die KUKA Roboter, eine Tochtergesellschaft von Midea, bereits Rechenleistungsschnittstellen in den Schränken der Roboterarme reserviert, um sich frühzeitig auf die "Embodied - AI - Transformation" vorzubereiten.
Embodied AI wird nicht nur in der Industrie eingesetzt, sondern auch in unseren Alltag gelangen.
"Wenn Sie Medikamente auf einer bestimmten Plattform bestellen, ist es sehr wahrscheinlich, dass unser humanoider Roboter die Bestellung zusammenstellt." zeigte Wang He, Gründer und CTO von Galaxy Universal, ein Video von einem 24 - Stunden - Apothekenbetrieb, in dem Roboter zwischen offenen Regalen und dicht gepackten Regalen hin und her gehen, Waren selbständig abholen, in die Schubladen legen und die Kurierfahrer sie später abholen.
Es gibt bereits sieben Läden in Beijing, die in der Regelbetriebsweise funktionieren. Bis Ende des Jahres sollen 100 Läden in Beijing, Shanghai und Shenzhen eingerichtet werden." sagte Wang He. "Ein 24 - Stunden - Geschäft mit Dreischichtbetrieb kostet jährlich über 700.000 Yuan an Personal. Unsere Roboter können die Kosten niedriger halten."
In einem Souvenir - Geschäft eines sieben - Sternen - Hotels im Nahen Osten fungiert ein Roboter als Empfangsdame und lockt die Kunden zum Einkaufen an.
Das Ziel von Embodied AI ist nicht unbedingt, die bestehenden Roboterarme zu ersetzen. Nach mehr als einem Jahr industrieller Forschung stellte Wang Zhongyuan, Direktor des Zhiyuan Research Institutes, fest, dass wiederholende und langweilige Arbeitsgänge wie die Logistik - Sortierung und das Lasermarkieren, die über zehn Stunden am Tag durchgeführt werden, die Arbeitskräfte ermüden und sogar Sicherheitsrisiken bergen, genau die ersten Anwendungsfälle sind, für die Embodied AI am besten geeignet ist.
Embodied AI könnte auch der Schlüssel für den Ausstieg der chinesischen Fertigungsindustrie ins Ausland sein. "Eigentlich verdienen die chinesischen Unternehmen, die in den USA oder in Europa Fabriken errichten, meistens kein Geld, weil die Arbeitskosten zu hoch und die Rohstoffe teuer sind." sagte Professor Sun Fuchun von der Tsinghua Universität. "Die einzige Möglichkeit ist, Roboter dorthin zu bringen und sie über die Cloud - Edge - End - Architektur ferngesteuert zu betreiben. Dies ist ein wichtiges Problem, das die Embodied AI in Zukunft zu lösen hat."
Allerdings ist die echte Umsetzung weitaus schwieriger als nur "aufzutreten":
Die Kosten für einen dexteren Handgelenk sind sehr hoch. Ein Handgelenk mit Sensoren kann mehrere Zehntausend Yuan kosten, aber seine Lebensdauer beträgt nur einige tausend Malgebrauch." sagte ein Branchenmitarbeiter direkt.
Es ist auch eine Herausforderung, dass ein humanoider Roboter "sicher gehen" kann. Zhao Tongyang, Gründer von Zhongqing Robotics, zeigte ein Szenario, in dem ein humanoider Roboter von Punkt A in einem Gebäude zu Punkt B gehen, den Fahrstuhl benutzen und in ein anderes Gebäude gelangen soll. "Theoretisch ist es möglich, aber in der Realität kann noch keine Firma das wirklich erreichen."
Ein weiterer wichtiger Punkt ist die Lebensdauer. Die Lebensdauer eines Autos liegt zwischen 10 und 15 Jahren, während die durchschnittliche Lebensdauer eines Roboters derzeit nur etwa zwei Jahre beträgt. "Wir erwarten, dass wir innerhalb von fünf Jahren eine mechanische Lebensdauer von 10 - 15 Jahren erreichen können." sagte Zhao Tongyang.
Sicherheitsstandards werden auch zur Einstiegshürde für die Fabrik. Beispielsweise müssen die Batterien den industriellen Brandschutz - und Explosionsschutzstandards entsprechen. Lithium - Ionen - Batterien und Akkus sind nicht geeignet.
Zur gleichen Zeit findet auch eine tiefere Reflexion statt: Welchen Weg sollten wir bei der Modelltraining von Embodied AI einschlagen, um eine stärkere Generalisierbarkeit zu erreichen? Wie unterscheiden sich unsere Methoden von denen im Ausland? Dies betrifft die zukünftige Entwicklung der zugrunde liegenden Technologie.
02 Nach GPT fehlt den Robotern noch ein echtes Gehirn
Vor der Popularität der Large Models konnten Roboter nur eine Aufgabe ausführen - wie das Servieren von Essen, das Eindrehen von Schrauben oder das Transportieren von Materialien. Sie waren wie gut ausgebildete Arbeiter, aber nur in einer Sache geschickt. Jetzt versucht die Branche, diese Beschränkung zu überwinden.
"Vor 2022 stand die Embodied AI vor der Herausforderung einer einzigen Aufgabe, eines einzigen Szenarios und eines einzigen Körpers." sagte Zhang Shanghang, Direktor des Embodied Multimodal Large Model Centers des Beijing Zhiyuan Research Institutes. Der Wendepunkt war das Jahr, in dem ChatGPT auf den Markt kam. Seitdem haben die Roboter ein "klügeres Gehirn" bekommen.
Die Euphorie um Embodied AI ist im Wesentlichen die Fusion von Large Models und Robotiktechnologie. Multimodal Large Models bringen eine stärkere Generalisierbarkeit und treiben die Entwicklung der Roboter von "Spezialisten" zu "Universalisten" voran. Aber es ist nicht einfach, einen "Universalisten" zu schaffen. Die Branche ist der Meinung, dass die Herausforderungen der Embodied AI weit größer sind als die des autonomen Fahrens.
Zhang Shanghang gab als Beispiel an, dass derzeit hauptsächlich drei technologische Ansätze für Embodied AI verfolgt werden: das End - to - End - VLA - Modell (Vision - Language - Action), das "Gehirn + Kleinhirn" - Architekturmodell und das Weltmodell.
Das VLA - Modell ist am intuitivsten. Es nimmt menschliche Sprache und visuelle Eingaben auf und gibt Handlungsanweisungen aus, wodurch ein schneller geschlossener Kreis entsteht. Wang He, Gründer von Galaxy Universal, meint: "Das VLA - Modell hat sehr gute Chancen."
Aber aus der Sicht von Professor Sun Fuchun der Tsinghua Universität reicht das VLA - Modell noch nicht.
"Li Feifei betont besonders die Rolle der Vision und hat das Raumintelligenzkonzept vorgeschlagen, das die Fähigkeit ist, in einem dreidimensionalen Raum zu erkennen, zu schließen und zu handeln." Aber das VLA - Modell fehlt an der Fähigkeit, physikalische Eigenschaften zu unterscheiden und physikalische Gesetze anzuwenden, und es gibt auch keine ausreichenden Steuerungstrajektorien. Sun Fuchun sagte: "Das ist der Grund, warum wir ein Weltmodell aufbauen."
Das sogenannte Weltmodell ist ein Modell mit allen Faktoren. Die Raumintelligenz ist nur eine Projektion des Weltmodells in den visuellen Raum. Das Team von Sun Fuchun plant, ein Large Model mit 2 Millionen Trajektorien und 52 TB Datenmenge zu trainieren, um eine hochgradig generalisierte Embodied AI in verschiedenen Fabriken zu realisieren. Ihr Vergleichsobjekt ist das Weltmodell von NVIDIA, das 1,2 Millionen Trajektorien und 32 TB Datenmenge hat.
Der dritte Ansatz ist das "Gehirn + Kleinhirn" - Modell, eine bildliche Bezeichnung, die in China geprägt wurde. Das "Gehirn" ist für die Aufgabenplanung verantwortlich, während das "Kleinhirn" für die konkrete Ausführung zuständig ist. Der Vorteil liegt in der Modularität und Interpretierbarkeit, was die Umsetzung leichter macht. Aber es gibt auch Hürden. "Nicht alle Multimodal Large Models sind als "Gehirn" geeignet." sagte Zhang Shanghang. "Zum Beispiel ist GPT - 4o als Robotergehirn nicht ideal, weil es die Fähigkeit zur Langzeitplanung und Raumverständnis fehlt."
Im "Gehirn + Kleinhirn" - Ansatz sieht Dr. Tang Jian vom Beijing Humanoid Robot Innovation Center zwei "Engpässe": Einerseits ist es schwierig, dass das "Gehirn" verschiedene Aufgaben präzise plant und komplexe Aufgaben in zehn oder sogar mehrere zehn Schritte zerlegt und plant. Andererseits ist die Fähigkeitsbibliothek des "Kleinhirns" ein Problem. Beide müssen eine starke Generalisierbarkeit aufweisen, weil es unzählige Aufgaben gibt.
Gao Yang hat auch eine Einstufung der Generalisierbarkeit von Embodied AI vorgenommen. Er meint, dass L3 ein sehr wichtiger Knotenpunkt ist, weil es die vollständige Autonomie in einer bestimmten Umgebung bedeutet und auch ein relativ schwieriger Knotenpunkt ist.