Der Preis für humanoide Roboter fällt stark: Günstiger als ein iPhone! Industrieller Wettlauf auf Produktivität statt Form

Vor kurzem erlebten humanoide Roboter einen historischen Wandel von „Luxusgütern“ zu „Schnäppchenpreisen“.

In letzter Zeit hat der humanoide Roboter einen historischen Wendepunkt von einem "Luxusgut" zu einem "Billigware" erreicht. Vor einem Jahr musste man fast eine Million Yuan zahlen und in einer Warteliste reservieren, um einen Prototypen zu erwerben. Heute werden diese Prototypen auf Second-Hand-Plattformen und in Demontagemärkten zu einem Paketpreis von "50.000 Yuan pro Wagen" liquidiert. Einige haben sogar einen niedrigeren Preis als High-End-Smartphones.

Der Unitree G1 kostet jetzt ab 85.000 Yuan, der Einsteiger-Roboter R1 Air der Konsumklasse wird nur für 29.900 Yuan verkauft, und der Bumi von Songyan Power ist sogar auf 9.998 Yuan gefallen, billiger als ein hochwertiges iPhone. Gleichzeitig hat die Lokalisierungshöhe der Lieferkette chinesischer humanoider Roboter 90 % überschritten. Laut einem neuesten Bericht von Morgan Stanley werden von den 13.000 bis 16.000 humanoiden Robotern, die weltweit 2025 ausgeliefert werden, ca. 90 % von chinesischen Herstellern produziert.

Wenn man sagt, dass die heutige Künstliche Intelligenz bereits die Produktivkraft in der digitalen Welt darstellt, dann besteht die Hoffnung, dass die rasant entwickelnden Roboter die Produktivkraft in der physischen Welt werden können. Angesichts der rasanten Preisentwicklung stellt sich die Frage: Braucht man in Zukunft nur noch humanoide Roboter?

Die Umfragedaten von Gartner geben eine nüchterne Tatsache preis: Das "Realisierungsverhältnis" von humanoiden Robotern liegt nur bei 1:60. Etwa 98,36 % der befragten Kunden befinden sich noch in der Erkundungsphase, und nur 1,64 % haben sie tatsächlich eingesetzt. "Aus praktischer oder rationaler Sicht halten wir es für nicht unbedingt notwendig, dass zukünftige Roboter genau wie Menschen aussehen", sagte Gao Ting, stellvertretender Forschungschef von Gartner.

Kürzlich haben wir Gao Ting interviewt. In dem Gespräch stellte er fest, dass, obwohl die menschliche Welt auf die menschliche Gestalt zugeschnitten ist, die menschliche Körperstruktur nicht unbedingt die beste Form für Roboter ist. Erfolgreiche Roboter sollten die menschliche Form verbessern, anstatt sie einfach zu kopieren. Beispielsweise hat der von Amazon getestete Roboter Digit nach hinten gekrümmte Knie, was ihm ermöglicht, effizienter als Menschen vor Regalen zu hocken. Der Roboter Eve von 1X verwendet ein Räder- und Selbstbalancierungsfahrwerk, um die Bewegungsgeschwindigkeit in flachen Innenräumen zu erhöhen. Effiziente Roboter können die Form von Hunden, Rädern oder eine völlig neue, auf die Aufgaben zugeschnittene Form haben. Diese Formen sind in der Regel stabiler, kostengünstiger und schneller als humanoide Roboter.

"Man sollte sich nicht durch die 'humanoide' Form einschränken lassen, sondern lieber nach spezifischen vertikalen Anwendungsfällen suchen, die schnell Wert schaffen und Einnahmen generieren können." Darüber hinaus hat Gao Ting aus technischer, hardwaremäßiger, anwendungsspezifischer und realitätsbezogener Perspektive das aktuelle Bild der Robotikbranche zusammengefasst.

Was können heutige Roboter tun?

"Kurzfristig sollte man sich nicht darauf konzentrieren, 'ob ein Roboter wie ein Mensch aussieht', sondern darauf, 'ob ein Roboter in einem sehr klar definierten Szenario stabil Aufgaben erledigen, Kosten senken, die Abhängigkeit von Menschen reduzieren und die Betriebseffizienz verbessern kann'."

Was können also heutige Roboter tun?

"Aus den bisherigen Fällen geht hervor, dass die Form des Roboters nicht das Wichtigste ist. Egal, ob es sich um Roboterarme in Lagerhallen oder Transportroboter in Automobilfabriken handelt, die Szenarien, die am ehesten umsetzbar sind, haben eines gemeinsam: Die Umgebung ist relativ stabil. Unternehmen interessieren sich letztendlich dafür, ob der Roboter die Arbeit gut erledigen kann und ob die Kosten gerechtfertigt sind, nicht darum, ob er wie ein Mensch aussieht."

Gao Ting hat festgestellt, dass die Roboteranwendungen, die in der gegenwärtigen Phase eher einen Investitionsrückgang erzielen können, in der Regel drei Merkmale aufweisen: klare Aufgabengrenzen, wiederholbare Prozesse und relativ begrenzte Ausnahmesituationen. Beispielsweise können die Logistik entlang der Produktionslinie, der Lagertransport und einige Serviceprozesse durch die Anpassung der Umgebung die Komplexität, die die Roboter bewältigen müssen, reduzieren. Im Haushaltsbereich ist es anders: Die Aufgaben sind stärker verteilt, die Umgebung ändert sich häufiger, und jeder Fehler kann direkt die Sicherheit der Menschen beeinträchtigen. Daher benötigen Haushaltsroboter nicht nur eine stärkere Modellfähigkeit, sondern auch eine reifere technische Zuverlässigkeit und Sicherheitsmechanismen.

Wo liegen die Chancen in der Phase der Massenproduktion?

"Die Robotik befindet sich in der Phase, in der sie sich auf die Massenproduktion vorbereitet", so Gao Ting in Bezug auf die gegenwärtige Phase der Robotikbranche. "Derzeit haben Roboter in einigen gewerblichen und industriellen Szenarien ihre Tauglichkeit bewiesen. Insbesondere in Fabriken und Lagerhallen können Roboter bei wiederholten Aufgaben einen Teil der menschlichen Arbeitskräfte ersetzen. Deshalb interessiert sich das Kapital sehr für diesen Sektor, und der Unternehmenswert einiger führender Unternehmen ist schnell gestiegen."

Aber die echte Massenproduktion hat noch nicht stattgefunden.

Tesla hatte das Ziel, 2025 etwa 5.000 Roboter des Typs Optimus herzustellen. Aber bei der Veröffentlichung der vierten Quartalsbilanz 2025 hat Elon Musk zugegeben, dass der Optimus in der Fabrik nur einige grundlegende Aufgaben erledigt hat und noch keine echte Produktivkraft darstellt. Laut Informationen wird das dritte Modell des humanoiden Roboters von Tesla Mitte des Jahres vorgestellt werden und erst zwischen Juli und August 2026 in die Serienproduktion gehen.

"Der reale Einsatz von Robotern, insbesondere humanoiden Robotern, weicht stark von den Erwartungen der Öffentlichkeit ab. Dies ist die gegenwärtige Situation", sagte Gao Ting.

In Gao Tings Ansicht wird es in den nächsten 2 - 3 Jahren schwierig sein, humanoide Roboter vollständig kommerziell zu vermarkten. "Diese humanoiden Roboter werden möglicherweise weiterhin in Fabriken, Lagerhallen und der Automobilproduktion in relativ stabilen Umgebungen eingesetzt werden, um wiederholte und weniger komplexe Aufgaben zu erledigen. Aber es wird eher um Pilotprojekte und kleine Skaleneinsätze gehen, als um die vollständige Substitution der Arbeitskräfte. Im Vergleich dazu sind die kommerziellen Wege von Industrierobotern, Lagerrobotern, Dienstleistungsrobotern und einigen multifunktionalen Robotern für spezifische Aufgaben klarer. Denn ihre Aufgabengrenzen sind klarer definiert, die Kosten-Nutzen-Relation ist leichter zu berechnen, und die Sicherheit und der Prozess sind leichter zu kontrollieren."

Für Unternehmen, die Roboter kaufen möchten, gibt er den folgenden Rat: "Erstens sollte man nicht mit der Kaufentscheidung 'einen humanoiden Roboter zu kaufen' beginnen, sondern eher mit der Suche nach hochwertigen und weniger komplexen Aufgaben. Zweitens sollte man den Roboter als ein Betriebsverbesserungsprojekt betrachten, nicht nur als eine Hardwarebeschaffung. Man kann den Roboter nicht einfach so einsetzen, sondern muss auch den Prozess vor Ort, die Raumplanung, die IT/OT-Integration, die Mitarbeiterkooperation usw. berücksichtigen. Drittens sollte man zuerst Pilotprojekte durchführen und dann erweitern, beginnend mit einem oder zwei kleinen, abgeschlossenen Szenarien, und erst nach der Erzielung echter Produktivitätsergebnissen die Lösung replizieren. Viertens sollte man zuerst auf etablierte Produktkategorien wie AMR, Roboterarme und Kollaborationsroboter setzen und dann langfristig die Reife von humanoiden Robotern verfolgen."

"In der Branche wird oft die gegenwärtige Entwicklungsphase der Embodied Intelligence mit der frühen Phase der Large Language Models verglichen: Die technische Richtung wird immer klarer, aber die Fähigkeit zur Massenproduktion ist noch nicht ausgebildet", erklärte Gao Ting. Dieser Vergleich hat seine Berechtigung, aber die Industrialisierung von Robotern ist schwieriger. "Denn sie wird nicht nur durch Daten und Rechenleistung begrenzt, sondern auch durch Sensoren, Antriebssysteme, Energieverwaltung und Systemzuverlässigkeit."

"VLA ist immer noch ein wichtiger Weg, und das Weltmodell wird immer stärker in das Robotersystem integriert"

Was ein Roboter können kann und was nicht, hängt im Wesentlichen von seinem "Gehirn", also dem Robotermodell, ab.

Gao Ting sagte: "VLA ist derzeit ein relativ reifer technischer Weg für allgemeine Robotermodelle." VLA steht für Vision-Language-Action, d. h. Sicht, Sprache und Handlung. Der "Language"-Teil stammt aus den Large Language Models. Es ermöglicht es dem Roboter, auf der Grundlage von Umgebungsinformationen und Aufgabenanweisungen entsprechende Handlungen auszuführen.

"Die Aufgabe der Sprachmodelle besteht darin, dem Roboter die Fähigkeit zur semantischen Verständnis, Allgemeinwissen und Aufgabenplanung zu verleihen. Wenn ein Benutzer beispielsweise sagt: 'Es ist im Zimmer zu dunkel', muss der Roboter das dahinterliegende Aufgabenziel verstehen und entscheiden, ob er das Licht einschalten sollte."

Im Gegensatz zu den früheren Paradigmen hat das VLA-Modell zuerst die Generalisierungsfähigkeit und baut dann die Zuverlässigkeit in einzelnen Szenarien auf. Die Logik ist umgekehrt. "Früher wurde zuerst das Problem der hohen Zuverlässigkeit in bestimmten Szenarien gelöst und dann versucht, die Lösung zu verallgemeinern. Man hat beispielsweise versucht, die Zuverlässigkeit eines bestimmten Handlungsablaufs eines Roboters sehr hoch zu machen und ihn dann andere Aufgaben lernen zu lassen. Aber man hat festgestellt, dass es schwierig ist, die Lösung wirklich zu verallgemeinern. Man bekommt nur einen sehr spezialisierten Roboter, der bei anderen Aufgaben nicht gut abschneidet."

Bezüglich des neuen technischen Wegs des Weltmodells sagte Gao Ting: "Es bietet eine andere Möglichkeit: Das System lernt die Zustandsänderungen und kausalen Beziehungen in der physischen Welt und prognostiziert die möglichen Ergebnisse von Handlungen. Es ist nicht unbedingt von der Sprache als Zwischenschicht abhängig, sondern legt mehr Wert auf die Modellierung der physikalischen Gesetze. Ein erfahrener Fahrer beispielsweise braucht nicht, wenn er ein Pfütchen vor sich sieht, im Kopf zu denken: 'Hier ist Wasser, es könnte rutschen, ich muss bremsen'. Stattdessen löst die visuelle Wahrnehmung direkt die physikalische Vorhersage der Fahrspur aus, und er tritt automatisch auf die Bremse. Das Weltmodell will genau diese Fähigkeit schaffen, ohne zuerst in die Sprache zu übersetzen und direkt eine Entscheidung zu treffen."

Dennoch ist nach seiner Ansicht "derzeit der VLA-Weg immer noch der wichtigste Weg für allgemeine Roboter und humanoide Roboter. Obwohl sich das Weltmodell schnell entwickelt, wird es derzeit hauptsächlich für die Erzeugung von synthetischen Daten, Simulation, Bewertung und Hilfsprogrammierung eingesetzt. Die Fälle, in denen es direkt für die Steuerung von physischen Robotern verwendet wird, befinden sich noch in einem frühen Stadium. In den nächsten ein bis zwei Jahren wird der VLA-Weg wahrscheinlich weiterhin der Hauptweg für die Robotermodelle sein, aber das Weltmodell wird schrittweise in das VLA-System integriert und dem Roboter eine stärkere physische Verständnis-, Planungs- und Vorhersagefähigkeit verleihen. Langfristig ist eher eine Fusion von VLA und Weltmodell zu erwarten, als dass das Weltmodell einfach den VLA-Weg ersetzt."

Gao Ting stellte fest, dass der VLA-Weg derzeit einer der am ehesten in die Praxis umsetzbaren technischen Wege für allgemeine Roboter ist. Obwohl er noch einen großen Abstand zu einer so flexiblen und allgemeingültigen Intelligenz wie die des Menschen hat, hat er in Szenarien mit relativ klaren Grenzen wie Lagerhaltung und Herstellung bereits einen guten praktischen Wert gezeigt. In naher Zukunft wird der VLA-Weg wahrscheinlich weiterhin der Hauptweg für die Industrialisierung von Robotern sein.

Der unverzichtbare "Fingerspitzengefühl-Hands": Mehrfache technische Abwägungen bei der Serienproduktion von Robotern

Wenn das Modell das "Gehirn" des Roboters ist, dann ist die Fingerspitzengefühl-Hands sein wichtigstes "Werkzeug". "Für Roboter, die Gegenstände manipulieren müssen, ist das Endeffektor von entscheidender Bedeutung; in allgemeinen Manipulationsszenarien ist die Fingerspitzengefühl-Hands besonders wichtig."

Gao Ting sagte, dass nicht jeder Roboterarm eine "Fingerspitzengefühl-Hands" genannt werden kann. Sie muss über genügend Freiheitsgrade verfügen, feine Manipulationen ausführen können und an das Greifen verschiedener Gegenstände angepasst sein.

In den letzten Jahren hat die Fingerspitzengefühl-Hands deutliche Fortschritte gemacht: Die Freiheitsgrade sind höher, und die Preise sind niedriger. Aber Gao Ting wies darauf hin, dass "das Problem der Fingerspitzengefühl-Hands nicht nur in der Erhöhung der Freiheitsgrade liegt. Für die industrielle Anwendung ist es wichtiger, in einem begrenzten Raum die Greifgenauigkeit, die Kraftausgabe, die Haltbarkeit und die Wartungskosten zu berücksichtigen. Das Produkt mit den höchsten Freiheitsgraden ist nicht unbedingt am besten für die Serienproduktion geeignet. Bei verschiedenen Aufgaben müssen unterschiedliche Kompromisse zwischen Leistung und Zuverlässigkeit gemacht werden."

Er gab ein Beispiel: "Einige hochwertige Fingerspitzengefühl-Hands aus dem Ausland können zwar durch die Anordnung von hochdichten Sensoren und komplexen Seilantrieben in Bezug auf die Freiheitsgrade und die adaptive Greiffähigkeit dem menschlichen Handgriff nahekommen, aber ihre Preise sind in der Regel hoch, manchmal mehrere zehntausend oder sogar hunderttausend Yuan, was eine Massenproduktion schwierig macht. Einige Produkte im unteren Preissegment oder Open-Source-Einstiegsprodukte senken die Einstiegshürde, aber ihre Leistung in Bezug auf die Kraftausgabe am Ende, die Haltbarkeit und die Sensorpräzision muss noch weiter überprüft werden. Im Moment ist es noch schwierig, sie direkt als Ersatz für Menschen einzusetzen."

Die Datenspende: Die Lücke zwischen Simulation und Realität, zwischen Maschine und Mensch

Heute steht die Robotikbranche vor mehreren Herausforderungen, und einer der Kernengpässe ist der Mangel an hochwertigen Daten. "Daten sind immer noch die erste Hürde auf dem Weg zur Massenproduktion von Robotern."

Gao Ting sagte, dass die Daten, die für das Training von Large Language Models verwendet werden, relativ leicht von dem Internet zu erhalten sind. Aber die echten Betriebsdaten für das Training von Robotern, wie Fernsteuerungsdaten, kosten viel.

Da es schwierig ist, echte Daten zu erhalten, kann man sich fragen, ob man sie durch Simulationsdaten ersetzen kann. Dies bringt uns zu der zweiten Herausforderung: die Lücke zwischen Simulation und Realität. Gao Ting wies darauf hin, dass NVIDIA derzeit Schwerpunkt auf die Simulations- und Synthetisierungsdaten-Toolkette legt, indem es Roboter in einer virtuellen Umgebung trainiert, testet und validiert, um die Trainingsdatenmenge zu erweitern und die Kosten für Fehlversuche in der realen Welt zu senken. Der Vorteil ist, dass die Kosten niedrig sind und die Skalierung leicht möglich ist. Aber es gibt ein wichtiges Problem: Es gibt immer einen Unterschied zwischen der Simulationsumgebung und der real

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Der Preis für humanoide Roboter stürzt ab und ist sogar günstiger als ein iPhone: Ein industrieller Wettlauf, der sich auf Produktivität statt auf Form konzentriert

Was können heutige Roboter tun?

Wo liegen die Chancen in der Phase der Massenproduktion?

"VLA ist immer noch ein wichtiger Weg, und das Weltmodell wird immer stärker in das Robotersystem integriert"

Der unverzichtbare "Fingerspitzengefühl-Hands": Mehrfache technische Abwägungen bei der Serienproduktion von Robotern

Die Datenspende: Die Lücke zwischen Simulation und Realität, zwischen Maschine und Mensch