Hinter dem Ruhm der Roboter bei der Gala des chinesischen Neujahrsfestes: Eine industrielle Debatte über das "nicht-konsensuelle" Konzept
Von der "Stimmungskreativgruppe" zum "echten Superstar": Mit einem technologischen Fortschritt über 14 Jahre hinweg hat die Embodied Intelligence einen spektakulären Wandel von der Bühnenkulisse zum Protagonisten der Zeit vollzogen und sich zum besten Repräsentanten des neuen Technologiekonfidenzes in China gemacht.
Text | Meng Wen
Im Jahr 1950 legte Turing in seinem Aufsatz "Computing Machinery and Intelligence" den Grundstein für die "Embodied Intelligence".
Siebzig Jahre später hat dieser Samen angesichts der ChatGPT-Welle und der Entstehung von VLA (Visual-Language-Action) seine Zweige geschossen. Die Embodied Intelligence hat die traditionelle Erzählung des "Automatismus" abgelöst und sich zum neuen Branchenkonsens entwickelt.
Als neue Spezies, die als "realer Träger für die Implementierung von KI" fungiert, sind Roboter die neuen Lieblingskinder der Zeit geworden.
Während der gerade beendeten Frühlingsfeier im Jahr des Pferdes waren Unternehmen wie Unitree, Songyan Power und Galaxy Universal Robotics auf der Bühne vertreten und haben so eine umfassende Aufklärung der Bevölkerung vorgenommen. Es heißt, dass die Suchanzahl nach Robotern auf JD.com innerhalb von zwei Stunden nach dem Start der Frühlingsfeier um über 300 % stieg und die Bestellmenge um 150 % sprunghaft anstieg.
Aber dies war nicht nur eine Tournee voller Lobpreise, sondern auch ein schmerzhafter Wandel.
Am Kapitalmarkt ist dies eine beispiellose Feier: Das Jahresfinanzierungsvolumen im Bereich der Embodied Intelligence ist auf 744 Fälle gestiegen, und das Volumen nähert sich 73,543 Milliarden Yuan. Doch hinter der Blüte erlebt die Branche auch Schmerzen.
Einerseits beschleunigen Konzerne wie Tesla und Ubtech die Iteration und die Kapazitätserweiterung weltweit; andererseits mussten Prominenten wie K-Scale und Datarobotics leider aussteigen. Dies sind die realen und kalten Fakten.
Der Anstieg des Unternehmenswertes und die bescheidene Stückzahl der Lieferungen bilden die realste Spannung in der Embodied Intelligence.
I.
Von Superstar der Frühlingsfeier zum Arbeitskollegen in der Werkhalle
Während der Frühlingsfeier im Jahr des Pferdes hat die Embodied Intelligence die Bühne wie nie zuvor dominiert.
Der Roboter G1 von Unitree hat die Bühne mit seiner Show "WuBOT" in Flammen gesetzt. Er hat beeindruckende Bewegungsgrenzen erreicht, indem er einbeinig hintereinander Rückwärtsrücksprünge gemacht und Sprünge über Sprungpferde in einer Höhe von zwei bis drei Metern durchgeführt hat. Der "bionische Cai Ming" von Songyan Power hat durch eine pixelgenaue Nachbildung das Make - up und die Mundbewegungen so realistisch dargestellt, dass es schwer zu unterscheiden ist, ob es echt oder falsch ist. Die MagicBot Z1 von Magic Atom hat sich als Tanzgruppe präsentiert und gemeinsam mit Prominenten anspruchsvolle Bewegungen wie Thomas - Drehungen durchgeführt.
Von den hunderten synchron tanzenden Pandaroboterhunden im Sichuan - Yibin - Nebenprogramm über die Szenariodemonstrationen von Galaxy Universal und Dreame bis hin zu anderen Robotern war die Roboter - Konzentration so hoch, dass die Netizens die Feier als die "erste KI - Frühlingsfeier" bezeichneten.
Vergessen wir nicht, dass vor 14 Jahren die Roboter bei der Frühlingsfeier nur als Stimmungskreativgruppe auftauchten und nur einfache Bewegungen ausführten. Heute stehen sie nicht nur im Mittelpunkt der Bühne, sondern sind auch dank ihrer tiefgreifenden Evolution in der Wahrnehmung und Interaktion die unbestrittenen Superstars der Frühlingsfeier geworden.
Eine tiefgreifendere Veränderung findet hinter den Kulissen in den Fabrikhallen statt.
Anfang 2026 hat Zhipu Robotics angekündigt, dass die kumulative Anzahl der produzierten Roboter die 5.000 - Marke überschritten hat, und strebt ein Jahresziel von mehreren zehntausend Einheiten an. Seine "Expedition" - Serie hat in der Automobilherstellung und der Fertigung von Präzisionsbauteilen bereits über eine Million Stunden gearbeitet.
Ubtech hat eine Produktionskapazität von 10.000 industriellen Robotern geplant und mit Airbus ein Strategieabkommen unterzeichnet. Der Walker S2 ist nun in die Fabrik integriert und beginnt mit der Herausforderung von luftfahrttechnischen Präzisionsmontagen.
Star Era hat sich mit SF Technology zusammengetan und die massenhafte Implementierung in den hochfrequenten Lagerumschlagsvorgängen voran getrieben, indem es die Vorteile von "beinigen" und "rädergestützten" Robotern in Effizienzsteigerungen in der Logistik umgewandelt hat.
Die Brancheneuigkeit hat auch auf den Kapitalmarkt gewirkt. Gu Shitao, Mitbegründer von Magic Atom, hat angegeben, dass das Unternehmen möglicherweise bereits 2026 neue Nachrichten an der Börse geben könnte und den Börsengang so schnell wie möglich plant. Die bereits umstrukturierten Unternehmen Leju Robotics und Deep Robotics haben ebenfalls den Börsengangsprozess offiziell gestartet.
Nachdem Internetriesen wie Meituan, Alibaba, JD.com und Tencent 2024 wild auf die Entwicklung von Large Language Models gesetzt haben, sind sie 2025 auch in die Branche der Embodied Intelligence eingestiegen. Fortschrittliche Hersteller und Industriekonzerne wie CATL und Automobilhersteller setzen ebenfalls auf diese Technologie...
Von der Labor - Demo bis hin zu Fabrikaufträgen, von der Kapitalmarktgeschichte bis hin zur kommerziellen Umsetzung scheint die Embodied Intelligence die kritische Phase der Technologievalidierung überwunden zu haben und rast in Richtung Massenproduktion.
Bildquelle: WeChat - Account von Galaxy Universal Robotics
Die staatlichen Politiken haben sich von der makroökonomischen Führung hin zu einer präzisen Intervention gewandelt. Ende 2025 haben die vier Ministerien wie das Ministerium für Industrie und Informationstechnik in der "Aktionsplattform für die digitale Transformation der Automobilindustrie" die massenhafte Anwendung von intelligenten Robotern in Bereichen wie Schweißen, Lackieren und Endmontage gefördert und die Schaffung von "Embodied - Intelligence - Demonstrationsproduktionslinien" angeregt.
Allerdings liegt zwischen der Vision und der Realität eine tiefe Kluft. Jiang Lei, Chefwissenschaftler des nationalen und regionalen Kooperationszentrums für die Innovation von Humanoidrobotern, hat zugegeben, dass die Branche derzeit eher "Konsumprodukte vorbereitet". Die Jahresproduktion wird nicht auf über 10.000 Einheiten gesteigert, da "zu viele Produkte keine Verwendung finden würden und der Kundendienst zu viel Druck aufnehmen müsste".
Wang He, Gründer von Galaxy Universal, hat direkt gesagt, dass es weltweit möglicherweise noch weniger als 1.000 Roboter gibt, die tatsächlich in menschlichen Arbeitsumgebungen eingesetzt werden.
Das ausländische Unternehmen Tesla hat zwar angekündigt, dass sein Optimus V3 im ersten Quartal dieses Jahres erscheinen wird und eine Produktion von 100.000 Einheiten bis Ende des Jahres und langfristig von einer Million Einheiten anstrebt, mit einem Zielpreis von 20.000 US - Dollar. Doch der Zeitplan ist um etwa acht Monate verzögert.
Die Massenproduktionsstabilität der 22 - Freiheitsgrade - Greifhand unter extremen Betriebsbedingungen und die technischen Probleme bei der Flüssigkeitskühlung bei Hochleistungsarbeiten sind die zentralen Engpässe.
Die Feierlichkeit am Kapitalmarkt und die Sorge in der Branche gehen Hand in Hand. Diese "Spaltung" rührt nicht nur von der Bühnenpräsentation bei der Frühlingsfeier und der daraus resultierenden Medienöffentlichkeit her, sondern auch von der Tatsache, dass die Embodied Intelligence in Bezug auf Hardware, Algorithmen und sogar kommerzielle Wege voller "Nicht - Konsens" ist.
II.
Ausbruch aus dem Paradigma
Rasante Veränderung im "Nicht - Konsens"
Embodied Intelligence bedeutet, einem Roboter einen "Körper" und ein "Gehirn" zu geben: Er soll die physische Welt über Sensoren wahrnehmen, dann Umgebungen verstehen und Bewegungen planen, indem er Algorithmen wie Large Language Models nutzt, und schließlich Gelenke und Motoren steuern, um Aufgaben zu erfüllen. Vereinfacht gesagt, soll der Roboter wie ein Mensch "sehen, verstehen und handeln" können.
Wenn wir es als "KI - Betriebssystem mit Körper" abstrahieren, ist die unterste Ebene die Hardware, die dafür sorgt, dass der Roboter "beweglich" wird; die nächste Ebene ist das algorithmische Gehirn, das bestimmt, "wie er denkt"; darüber ist die Umweltwahrnehmung, die ihm beibringt, "die Welt zu sehen und sich selbst zu spüren"; und schließlich ist es die kommerzielle Betreuung, die darauf abzielt, dass der Roboter in der realen Welt "überleben und Geld verdienen" kann.
Bei der Frage, "was für einen Körper" man einem Roboter geben soll, gibt es derzeit drei Ansätze in der Branche.
Ubtech und Zhipu streben danach, das Gerüst des Roboters mit "industriellem Präzisionsdenken" zu definieren. Durch die eigenständige Entwicklung der gesamten Technologie, einschließlich des Kern - Servosystems und des Präzisionsgetriebes, streben sie eine langfristige stabile Leistung in der Automobilherstellung oder der Fertigung von Präzisionsbauteilen an. Durch die physikalische Zuverlässigkeit wollen sie das Vertrauen in die "siliziumbasierte Arbeitskraft" in der Industrie gewinnen.
Unitree, Songyan Power und Zhongqing nutzen die Skaleneffekte der heimischen Lieferkette, um in Bezug auf "Leistung und Kosteneffizienz" Fortschritte zu erzielen. Sie haben den Gesamtkosten eines Roboters von einer Million Yuan auf 100.000 Yuan oder sogar weniger gesenkt, wodurch die Einstiegshürde gesenkt und eine große Anzahl von Entwicklern und Technikbegeisterten angezogen wurden. Sie haben zunächst in nicht - standardisierten Szenarien Ökosysteme aufgebaut.
Bildquelle: WeChat - Account von Songyan Power. Abgebildet ist der "Xiaowantong N2", der sich mit einem Besucher der CES verbeugt.
Galaxy Universal und Deep Robotics möchten zeigen, dass die "menschliche Gestalt" nicht die einzige Lösung für physikalische Arbeiten ist. Das erste Unternehmen hat sich für ein fahrbares Chassis mit zwei Armen entschieden und konzentriert sich zunächst auf die Lagerhaltung, den Einzelhandel und einige schwere Industriebereiche. Das zweite Unternehmen hält an einer Kombination aus vier Beinen und menschlicher Gestalt fest und strebt in Bereichen wie der Stromüberprüfung, Tunnelinspektion und Notfallrettung durch die Anpassung an die Topographie den Vorsprung an.
Tatsächlich entspricht diese Unterschiede in den Ansätzen auch den Unterschieden in der Geschäftsstrategie - einige Unternehmen wie Ubtechs Walker S2 streben eine vertikale Integration an und entwickeln alles selbst, von Servo, Motor, Getriebe bis hin zum gesamten Roboter, sowie die obere Steuerung und Large Language Models, um langfristige Wettbewerbsvorteile und Verhandlungsmacht zu gewinnen.
Andere Unternehmen wie die offene Plattform von Zhipu Robotics wählen dagegen die offene Modularität. Sie machen den Roboter als Standardplattform verfügbar und öffnen Schnittstellen, um es Dritten zu ermöglichen, "Gehirn und Anwendungen" zu installieren und so über die Stückzahl und das Ökosystem zu verdienen.
Betrachten wir nun die Ebene des algorithmischen Gehirns. Dies ist fast eine Geschichte der Iteration von Technologieparadigmen. Die frühen Simulationstransfertechniken haben zwar die Kosten für die anfängliche Modellbildung gesenkt, aber bei der Bewältigung von Reibung, Verformung und komplexen Störungen in der realen Welt geraten sie in die Falle der kumulativen Fehler bei langen Sequenzen von Aktionen, was dazu führt, dass sie in der Realität "immer mehr Fehler machen".
Später ist das VLA (Visual - Language - Action) - Large Language Model, das Internet - Daten integriert, zum Standard geworden. Es verleiht den Robotern eine ausgezeichnete Fähigkeit zur Semantikverstehen und Aufgabezerlegung. Von Googles RT - 2 über Physical Intelligences π - Serie bis hin zu GEN - 0 und GR00T hat das VLA - Modell die Schwelle für die Mensch - Maschine - Interaktion erheblich gesenkt.
Das VLA ist gut darin, komplexe Bild - und Sprachinformationen zu verknüpfen und Aktionen auf der Grundlage von erlernten "Mustern" abzuleiten. Doch auch seine strukturellen Schwächen treten zutage: Bei der Bewältigung von feinen physikalischen Aktionen und Kraftfeedback hat das VLA Schwierigkeiten, die Konsequenzen genau vorherzusagen, wie z. B. "eine Tasse an den Tischrand stellen, ohne dass sie herunterfällt oder das Wasser verschüttet wird".
Zhao Mingguo, Professor an der Fakultät für Automatisierung der Tsinghua - Universität, ist der Meinung, dass das von der Branche gefeierte VLA - Modell eher ein vorübergehender technischer Ansatz als die endgültige Lösung ist. Er hat erwähnt, dass der Erfolg von Large Language Models auf der "Standardisierung" und "Menge" der menschlichen Sprachdaten beruht, während die visuellen und taktilen Daten der physischen Welt "sehr unregelmäßig" sind und nicht einfach übertragen werden können.