Bevor körperlich intelligente Roboter in die Praxis umgesetzt werden können, müssen noch diese Hindernisse überwunden werden | Fokusanalyse
Autor | Huang Nan
Redakteur | Yuan Silai
Im Jahr 2025 scheint es in einem Roboterturnier, das Tischedecken ordnen und Frischhalteboxen schließen als Aufgabe zu haben, etwas zu kindisch zu sein.
Dennoch sind diese Handlungen, die Menschen mühelos ausführen können, für Roboter bis heute eine Herausforderung.
Ende Mai 2025 vor Ort bei der ICRA WBCD 2025 in Atlanta, USA, bewegte ein Xinghaitu-Zweiarmsroboter langsam Tennisbälle in Verpackungskartons, ein halb menschlicher ARX-Roboter öffnete und schloss wiederholt die Verschlüsse von Frischhalteboxen, und ein Songling-Roboter führte auf einem simulierten wissenschaftlichen Versuchstisch Tätigkeiten wie das Installieren von Silikonsäulen und das Handhaben von transparenten Reagenzgläsern durch.
Diese Demonstrationen weichen weit von der menschlichen Vorstellung von "Embodied Intelligence" (eingebettete Intelligenz) ab und können als eher bescheiden bezeichnet werden.
Vor über einem Monat bei der Marathonmeisterschaft für menschliche Roboter in Beijing, Yizhuang, zeigten die Bilder von mehreren teilnehmenden Geräten, die nacheinander stürzten, auf dramatische Weise die technischen Defizite hinter der Fassade der Intelligenz auf.
Diese Szene hat die langjährige irrationale Erwartung des Marktes in gewissem Maße zerstört. Nach dem heftigen Einstrom von Kapital haben einige Unternehmen im Bereich der Embodied Intelligence keine Fähigkeit zur Umsetzung und fehlen praktische Anwendungen, aber ihre Unternehmenswerte sind in kurzer Zeit sprunghaft gestiegen. Unter dieser Ungleichgewichtsituation lauern offensichtlich Gefahren.
Aber man muss auch sehen, dass die Hersteller von Embodied Intelligence-Systemen beschleunigt ihre jeweiligen Wege zusammenführen.
Derzeit besteht in der Branche ein allgemeiner Konsens über die Anwendungen von Embodied Intelligence-Robotern. Industriefertigung, Logistik und Lagerung, Biomedizin und kommerzieller Service werden als Kernanwendungsgebiete angesehen.
In diesen Anwendungsgebieten sind Roboter im Bereich der Industriefertigung relativ weit verbreitet. Nehmen wir den US-Markt als Beispiel. Als einer der Verkehrs- und Logistikzentren hat Atlanta viele Logistik- und Lagerunternehmen, die hier Lager eingerichtet haben. Sie müssen eine große Anzahl von lokalen Arbeitern anstellen, um die Arbeiten auszuführen, aber die Arbeitskosten sind sehr hoch. Laut Schätzungen anhand von Daten auf Websites wie Indeed und Glassdoor liegt der Stundenlohn von Lagerarbeitern zwischen 20 und 32 US-Dollar. Wenn man einen durchschnittlichen Stundenlohn von 25 US-Dollar und 2.000 Arbeitsstunden pro Jahr annimmt, beträgt das Jahresgehalt 50.000 US-Dollar.
Deshalb sind viele Logistiklager bereits hochgradig automatisiert. Ein repräsentatives Beispiel ist das "Goods-to-Person"-Lagersystem von Amazon Kiva.
Roboter sind noch weit davon entfernt, Menschen zu ersetzen, aber sie können bereits einen Teil der Arbeit übernehmen.
"Selbst wenn es nur um den Durchbruch bei einem winzigen Teilaspekt geht, kann die Verbesserung der Präzision und Flexibilität von Robotern in unstrukturierten Umgebungen unter der Verstärkungseffekt der Massenproduktion die Effizienz des gesamten Systems erheblich verbessern. Solche Durchbrüche in Aspekten, die auf reale Bedürfnisse abzielen und kommerziellen Wert haben, treiben die Entwicklung von Robotern von der 'Befehlsausführung' zur 'intelligenten Autonomie' voran." sagte Xu Zhuo, Initiator der WBCD (What Bimanual Can Do, ein Wettbewerb zur Erforschung der Grenzen der Fähigkeiten von Zweiarmsrobotern) und Mitglied des Roboterteams von DeepMind, an Yingke.
Drei Kernanwendungsgebiete - Herausforderungen
Im Vergleich zu anderen Bereichen sind Fabrikhallen und Logistiklager typische Industrieanwendungsgebiete mit deutlichen Strukturen und stabileren Arbeitsumgebungen. Darüber hinaus haben in der Vergangenheit schwere Roboterarme, Kollaborationsroboter, autonome Logistikfahrzeuge, AGV und andere Geräte eine große Menge an echten Szenariodaten gesammelt, die direkt auf die Ausbildung von Embodied-Robotern übertragen werden können.
Aber beim Logistikverpackungsprozess kann die Automatisierungstechnologie diesen Bereich noch nicht effektiv abdecken und lösen.
Heute hängt noch viele Lagerzentren weltweit stark von manuellen Eingriffen ab. Arbeiter müssen je nach Form, Größe und Eigenschaften der Waren die Verpackungsmethode flexibel anpassen und eine genaue Verpackung gewährleisten. Dies spiegelt auch die grundlegenden Herausforderungen der bestehenden Robotertechnologie bei der flexiblen Handhabung und der Anpassung an die Umgebung wider.
Yu Lei, Mitbegründer von Xinghaitu, sagte an Yingke, dass der scheinbar hochgradig automatisierte Verpackungsprozess immer noch auf Menschen angewiesen ist. Erstens gibt es eine Vielfalt an Warenformen, und verschiedene Arten von Waren unterscheiden sich deutlich in Größe, Gewicht und Form, was eine dynamische Anpassung der Verpackungsstrategie erfordert. Zweitens ist der Verpackungsprozess komplex, um sicherzustellen, dass die Waren richtig platziert und die Kartons fest verschlossen sind, was feine Bewegungen wie die Koordination mehrerer Finger und die Kraftkontrolle erfordert. Drittens sind die Einschränkungen bei der Einarmbedienung erheblich, und es ist schwierig, die kooperative Aufgabe "einer Hand hält den Karton fest, die andere verpackt" auszuführen. Traditionelle Zweiarmslösungen sind aufgrund der Algorithmenbeschränkungen auch nicht flexibel genug.
ICRA WBCD 2025 Live (Quelle: WBCD)
Aber in der biomedizinischen Branche ist es noch schwieriger, Automatisierungstechnologie umzusetzen.
Beispielsweise in den experimentellen Szenarien der Pharmaindustrie verbrauchen wiederholende Grundarbeiten wie das Handhaben von Reagenzgläsern und das Verwenden von Pipetten viel Arbeitskraft und stehen vor der Herausforderung der Konsistenz und Präzision der Handlungen. Dies hat eine beträchtliche Branche für die Outsourcing von Experimenten hervorgebracht.
Chen Zhigang, Gründer von Hetan Intelligence und ehemaliger CDO von WuXi AppTec, wies darauf hin, dass nur der "Reinigungsschritt", d. h. die Abtrennung des Zielprodukts aus der Synthesereaktionsmischung, viel Arbeitskraft verbraucht. "Obwohl es auf dem Markt automatische Säulenchromatographiegeräte gibt, die einige Schritte ausführen können, gibt es immer noch Detailprobleme bei der vollständigen Automatisierung des Prozesses, wie die genaue Ausrichtung, Verbindung und Druckstabilisierung, die eine hochpräzise koordinierte Steuerung erfordern."
Nehmen wir WuXi AppTec als Beispiel. Als ein führendes Pharmaunternehmen mit einem Marktwert von über 200 Milliarden Yuan hat es einige Forschungsaufträge von europäischen und amerikanischen Labors übernommen und Teams in China und anderen Teilen Asiens mit relativ billiger Arbeitskraft aufgebaut, um die wiederholungsreichen und technisch weniger anspruchsvollen experimentellen Schritte zu bearbeiten.
Aber selbst mit relativ billiger Arbeitskraft möchten Unternehmen lieber Roboter einführen, um die Effizienz zu verbessern. "Da viele biologische Experimente komplex sind und die Freiheitsgrade der Endeffektoren von bestehenden Robotern begrenzt sind, sind ihre Fähigkeiten in Bezug auf Intelligenz und geschickte Handhabung eingeschränkt. Deshalb ist es schwierig, die hohe Flexibilität und Geschicklichkeit einer menschlichen Hand zu imitieren, wenn es um die Handhabung biologischer Proben geht." sagte Sun Lingfeng, Forscher am Robotics and AI Institute (RAI), an Yingke.
Xinghaitu-Roboterarm, der in der WBCD-Logistikverpackungsszene verwendet wird (Quelle: WBCD)
Zeng Yiheng, der nordamerikanische Leiter von Songling Robotics, sagte auch an Yingke, dass die Umsetzung in biomedizinischen Szenarien noch schwieriger ist. Einerseits sind medizinische Geräte im Allgemeinen teuer, und es muss unter begrenzten Budgets der optimale Arbeitserfolg erzielt werden. Zweitens sind feine Bewegungen wie die Erkennung von Reagenzgläsern und die Kraftkontrolle auch sehr schwierig umzusetzen.
"Es gibt viele verschiedene Methoden, um eine Aufgabe zu erfüllen. Aber bei der konkreten Umsetzung ist es eine Herausforderung, die Datenqualität, die Systemstabilität und die Qualität der Experimente zu gewährleisten." sagte Zeng Yiheng.
Songling-Roboter bei der WBCD-Lebenswissenschaftsexperiment-Herausforderung (Quelle: WBCD)
Das dritte Anwendungsgebiet, das auch das ultimative Ziel aller Hersteller von Embodied-Robotern ist, ist die Ansprache der Endverbraucher (C-End), damit Roboter wirklich in die Haushalte integriert werden können.
Derzeit gibt es einige Aufgaben, die bereits die Bedingungen für eine frühe Umsetzung erfüllen. Nehmen wir die Küche zu Hause und einige kommerzielle Gastronomiebetriebe als Beispiel. Die Arbeitsabläufe wie die Zubereitung von Lebensmitteln und die Reinigung von Geschirr sind hochgradig standardisiert und modelliert, was gerade ein ideales Anwendungsgebiet für die Ersetzung von Menschen durch Roboter bietet.
Aber nur wenige Unternehmen testen diese Art von Anwendungsgebieten. Selbst alltägliche Handlungen wie das Auslegen von Tischdecken und das Verpacken von Lebensmitteln in Frischhalteboxen, die scheinbar einfach erscheinen, sind komplex und haben lange Arbeitsabläufe. Darüber hinaus fehlen relevante Trainingsdatensätze und Demo-Versionen, so dass es keine effektiven Referenzwege gibt. Zhang Xinliang, CEO des ARX (Ark Infinity)-Roboters, ist der Meinung, dass diese Aufgaben, die mit flexiblen Gegenständen und der Zusammenarbeit von zwei Armen verbunden sind und empfindlich auf Kraftfeedback reagieren, in den nächsten ein bis zwei Jahren ein gemeinsames Ziel der Branche sein werden.
ARX-Roboter für die Tischordnungsszene bei der WBCD (Quelle: WBCD)
Die Probleme, denen die Embodied Intelligence gegenübersteht, stammen zwar aus verschiedenen Branchen und Szenarien, aber im Wesentlichen lassen sie sich auf einen Punkt zurückführen: Die Komplexität der Realität übersteigt bei weitem die Lösungsfähigkeit der derzeitigen Hardware und Software. Sowohl die Maschinen selbst als auch die Automatisierungssysteme brauchen noch viel Zeit, um die Engpässe zu überwinden.
Mehrere Lösungen warten auf Verifizierung
Aus den Demonstrationen von mehreren Dutzend Unternehmen und Forschungsinstitutionen vor Ort bei der WBCD lässt sich grob die Embodied Intelligence-Lösungen in drei Kategorien einteilen.
Die erste Kategorie ist die Fernbedienung, einschließlich der klassischen Fernsteuerung und einer neuen Fernsteuerungssystem plus Aktuator-Hardware.
Beide steuern den Roboter in Echtzeit über Interaktionsgeräte oder Kommunikationsverbindungen. Der Vorteil liegt darin, dass die Bedienung entschlossener und geschickter ist und das Problem der mangelnden Autonomiefähigkeit von Robotern in komplexen, unstrukturierten Umgebungen lösen kann. Beispielsweise hat das Embodied Intelligence-Anbieter Aiou Intelligence das Steuerende in seinem Hauptquartier in Shenzhen installiert, und Techniker steuern von dort aus die Roboter auf der Veranstaltung in den USA. Die Lösung der Firma FrodoBot ermöglicht die Fernsteuerung von New York nach Atlanta.
Yingke hat erfahren, dass dieses "Fernbedienungs"-Modell nicht nur für die Datenerfassung geeignet ist, sondern auch die Kostenoptimierung durch die überörtliche Arbeitskräfteverteilung ermöglichen kann. Ein direktes Beispiel ist, dass die Arbeitskosten auf ein Drittel bis ein Zehntel des lokalen Niveaus gesenkt werden können, indem Roboter in europäischen und amerikanischen Lagern von Operateuren aus Südostasien ferngesteuert werden.
Team der Carnegie Mellon University vor Ort bei der ICRA WBCD 2025 (Quelle: WBCD)
Die zweite Kategorie ist das derzeit populäre Lösung mit geschickten Händen. Durch die mechanische Nachahmung der menschlichen Hand und die Integration von Wahrnehmungs- und Bewegungskontrollsystemen kann der Roboter feine Handlungen ausführen.
Das Team der Eidgenössischen Technischen Hochschule Zürich hat auf der WBCD seinen entwickelten ORCA-Roboterhand demonstriert. Dies ist eine kostengünstige, quelloffene und hochgradig menschenähnliche Roboterhand mit 17 Freiheitsgraden und einer 60-Grad-Biegefähigkeit des Handgelenks. Sie kann direkt verschiedene menschliche Werkzeuge benutzen, Aufgaben wie das Drehen von Gegenständen und das Stapeln von Bausteinen ausführen und unterstützt auch das verstärkte Lernen und das Imitationslernen.
Die dritte Kategorie ist das automatische Modell, d. h. der Roboter wird durch das "Füttern" mit einer riesigen Menge an Betriebsdaten trainiert, um unabhängig Entscheidungen zu treffen und schließlich Aufgaben ohne menschliche Echtzeitintervention auszuführen.
Aber die Entwicklung des Modells steht noch vor großen Herausforderungen. Seine Generalisierungsfähigkeit und die Anpassungsfähigkeit an die dynamischen Veränderungen der realen Welt sind erheblich eingeschränkt. Dies rührt im Wesentlichen von der "Dreifachschwierigkeit" der Trainingsdaten her: Echte Szenari