StartseiteArtikel

Die boomende Embodied-Intelligence-Branche zieht fast die Hälfte der Akteure aus dem Bereich des autonomen Fahrens an

奇点研究社2026-06-17 12:03
Intelligentes Fahren ist die einfachste Form der Embodied Intelligence.

Das selbstfahrende Auto hat in zehn Jahren bewiesen, dass es in bestimmten Szenarien wichtiger ist, "funktionsfähig zu sein" als "menschlich auszusehen". Der Embodied AI wiederholt dieses Prinzip.

Im Jahr 2017 war man im Bereich des selbstfahrenden Autos der Meinung, dass das Endziel bald erreicht werden würde.

In jenem Jahr wurden die Stufen L4 und L5 wiederholt diskutiert, und selbstfahrende Taxis galten als die greifbare Zukunft. Doch nach zehn Jahren hat nicht die Firma, die zuerst "Fahrerlosigkeit" versprach, die Branche verändert, sondern jene, die zuerst Fahrerassistenzsysteme in Serienfahrzeuge integrierten und die Datenkreisläufe etablierten.

Der heutige Embodied AI steht an einem ähnlichen Scheideweg.

Am Ende der gerade abgeschlossenen Beijing Academy of Artificial Intelligence (BAAI) Conference haben humanoide Roboter, die Kaffee tragen, Tischtennis spielen und dynamische Sortierungen durchführen, zahlreiche Zuschauer angezogen. "Der ChatGPT-Moment der Roboter" ist ebenfalls zu einem häufig diskutierten Thema geworden.

Aber auf der anderen Seite sprechen immer mehr Gründer, die aus der Branche des selbstfahrenden Autos kommen, darüber, wie man das erste stabil funktionierende Szenario findet, wie man einen realen Datenkreislauf aufbaut und wie man Roboter zuerst "laufen lässt" und dann "klüger macht".

Liu Dong, Gründer von Xingyuanzhi, bezeichnet das selbstfahrende Auto als "die einfachste Form des Embodied". Aus seiner Sicht steht der Roboter vor komplexeren Problemen als das selbstfahrende Auto, von der Hindernisvermeidung und Navigation im zweidimensionalen Raum bis zur physikalischen Interaktion im dreidimensionalen Raum.

Wiederholt der Embodied AI die Narrative des selbstfahrenden Autos? Warum sind die Menschen aus der Branche des selbstfahrenden Autos die Schlüsselvariablen für die Veränderung der Branche? Wird der Ansatz des "schrittweisen Umsetzens", den sie bringen, dem Embodied AI einen anderen Weg ebnen?

Wenn ein noch nicht kommender Moment zur Branchenidole wird

Am Standort der BAAI Conference meint Wang He, Gründer und CTO von Galaxy Universal, dass der ChatGPT-Moment der Roboter dann erreicht ist, wenn das Modell die Fähigkeit zur Null-Sample-Lernen besitzt, d.h. es kann in bestimmten Szenarien 70 % bis 80 % der menschlichen Fähigkeiten ausführen, ohne spezielles Lernen, und es eine hohe Zugänglichkeit aufweist, sodass auch jemand mit einer Mittelschulausbildung es bedienen kann.

Liu Dong, Gründer von Xingyuanzhi, meint hingegen: "Auch beim Embodied AI richtet man sich derzeit an praktischen Anwendungsfällen, aber es gibt noch nicht viele L2-Systeme, die umgesetzt werden können. Das entspricht ungefähr dem Zustand des selbstfahrenden Autos zwischen 2015 und 2016, also dem Anfangsstadium."

Um 2017 herum herrschte auch in der Branche des selbstfahrenden Autos eine ähnliche optimistische Erwartung: Es wurde allgemein angenommen, dass L4-Fahrerlose Autos "innerhalb von drei bis fünf Jahren in Serie produziert werden würden". Gleichzeitig wurden in realen Serienfahrzeugen noch die Funktionen der Spurhaltung auf der Autobahn und des adaptiven Fahrstabs optimiert.

Sei es damals das selbstfahrende Auto oder heute der Embodied AI, in beiden Fällen wird "das Endziel vor dem Weg diskutiert". Zuerst entsteht in der Branche eine kollektive Vorstellung von der Zukunft, und erst dann sucht man nach dem technischen Weg dorthin.

Am Standort der BAAI Conference zeigt sich diese Diskrepanz in einer anderen Form. Humanoide Roboter, die Kaffee tragen, mit Menschen Tischtennis spielen und auf der Fertigungsstraße dynamische Sortierungen durchführen, haben vor den Ständen viele Zuschauer angezogen.

Zur gleichen Zeit hat die Erfolgsrate des neu veröffentlichten ω - EVA - Modells von Xingyuanzhi auf LIBERO 98,6 % erreicht, und die Aufgaben - Erfolgsrate auf RoboTwin ist von 88,9 % auf 90,3 % gestiegen.

Die Zahlen sind beeindruckend, aber Liu Dong hat in einem Interview eine relativ besonnene Einteilung der Umsetzungsmöglichkeiten vorgenommen: Die reinen Bewegungstätigkeiten wie Inspektion und Führung sind bereits relativ ausgereift; die Greif - und Platzierfunktionen lösen 90 % der Szenarien, aber es gibt noch einige Artikel, die schlecht gegriffen werden können; was die komplexen Tätigkeiten wie Hotelreinigung und Haushaltsdienstleistungen betrifft, "ist die kurzfristige Umsetzung noch relativ schwierig".

Dies bedeutet nicht, dass die Demos wertlos sind. Im Gegenteil, in einem neu aufkommenden Technologiebereich sind Demos ein notwendiger Beweis für die Machbarkeit der Technologie.

Es muss jedoch unterschieden werden, dass die Demos nur beweisen, "dass etwas unter bestimmten Bedingungen möglich ist", während die Abgabe erfordert, "dass etwas unter wechselnden Bedingungen wiederholt möglich ist".

Die Brücke zwischen diesen beiden Zuständen hat das selbstfahrende Auto zehn Jahre gebraucht, um sie zu überwinden.

Leider sind das Interesse von Kapital und Branche bereits frühzeitig geweckt. Wang Zhongyuan, Direktor des BAAI, hat erwähnt, dass auf dieser Konferenz mindestens 15 CEOs von Embodied - AI - Unternehmen mit einem Schätzwert von über zehn Milliarden Yuan zusammengekommen sind. "Embodied AI und humanoide Roboter" ist einer der beliebtesten Forumsbeiträge.

Das lässt an das "All in AI" in der Branche des selbstfahrenden Autos im Jahr 2017 denken. Damals stieg der Schätzwert und die Bekanntheit eines Projekts automatisch, wenn es die Worte "selbstfahrendes Auto" enthielt.

Aber der reale Geschäftsfortschritt hat möglicherweise nicht mit der Narrative Schritt gehalten. Xingyuanzhi ist eine der wenigen Unternehmen, die konkrete Umsetzungsprojekte vorweisen können: Ein Embodied - Brain auf einem Gabelstapler, ein Roboterhund, der Müll in offenen Umgebungen sammelt, und die automatisierte Sortierung in der Logistik.

Liu Dong hat erwähnt, dass diese Kooperationen im Einzelfall mit den Kunden ausgehandelt wurden. Die Daten müssen geteilt werden, und die Szenarien müssen maßgeschneidert werden. Dies ist keine Narrative, bei der "die Veröffentlichung gleichbedeutend mit der Allgemeingültigkeit ist". Stattdessen wird zuerst ein konkretes Szenario gefunden, das System wird darin in Betrieb genommen, und erst dann wird über die Generalisierung gesprochen.

Wenn man also eine Linie zwischen dem selbstfahrenden Auto und dem Embodied AI ziehen muss, ist es möglicherweise nicht die Überlappung der Narrative, sondern dass beide Branchen in ähnlichen Stadien der gleichen Versuchung ausgesetzt sind.

Die "zweite Gründung" einer Generation von Fachleuten aus der Branche des selbstfahrenden Autos

Es gibt nicht wenige Gründer wie Liu Dong mit einem Hintergrund in der Branche des selbstfahrenden Autos im Bereich des Embodied AI.

Das selbstfahrende Auto hat das Problem gelöst, "das Auto auf einer Ebene ohne Kollision zu bewegen", während der Embodied AI das Problem behandeln muss, "die Geräte im dreidimensionalen Raum mit Objekten zu interagieren". Liu Dong vergleicht das selbstfahrende Auto mit der einfachsten Form des Embodied. "Weil beim selbstfahrenden Auto damals die Aufgabe war, alle Objekte auf einer Ebene zu vermeiden und keine Interaktion mit ihnen zu haben.

Im Bereich des Embodied AI muss man neben der genauen Navigation auch mit Objekten im dreidimensionalen Raum interagieren."

Der Unterschied zwischen "vermeiden" und "aufnehmen" klingt nur wie eine Zunahme der Handlungskomplexität, aber in der technischen Umsetzung handelt es sich um ein völlig anderes System von Beschränkungen.

Beim selbstfahrenden Auto dienen die Kameras und die Lidar - Sensoren hauptsächlich zur Umweltwahrnehmung und Hinderniserkennung. Die Entscheidungslogik ist relativ klar: Sehen, beurteilen, umfahren. Im Bereich des Embodied AI muss das Gerät nicht nur ein Glas "sehen", sondern auch beurteilen, "wie man es aufnimmt", "ob es beim Aufnehmen verschüttet wird" und "ob die Ablageposition korrekt ist".

Die Kraftsteuerung, der Tastsinn und die multimodale Synchronisierung, Themen, die beim selbstfahrenden Auto fast nicht auftauchen, sind im Bereich des Embodied AI alltägliche Aufgaben.

Wenn diese Menschen aus der Branche des selbstfahrenden Autos in den Bereich des Embodied AI eintreten, bringen sie nicht nur die technische Kompetenz mit, sondern auch eine industrielle Erinnerung an ein bereits durchlaufenes Modell.

Im Jahr 2017 war die Branche des selbstfahrenden Autos von der Versuchung des "full - stack self - development" ergriffen. Algorithmen, Hardware, Daten und Fahrzeuge wurden alle in Eigenregie entwickelt. Die damalige Logik war, dass nur ein geschlossener Kreislauf das beste Erlebnis ermöglichen könne. Aber die spätere industrielle Realität hat gezeigt, dass der full - stack self - development vor dem Anstieg des Absatzvolumens ein äußerst kostspieliges Abenteuer ist.

Als Liu Dong gefragt wurde, ob die full - stack Entwicklung von Spitzenunternehmen die eigene Firma beeinträchtigen würde, antwortete er mit Anspielung auf diese Erfahrung: "Solange das reale Absatzvolumen nicht angestiegen ist, kann ein Unternehmen keine full - stack - Forschung und - Entwicklung finanzieren, es sei denn, es ist so groß wie Tesla und hat kein Geldproblem."

Er geht davon aus, dass von den fast zweihundert Embodied - AI - Unternehmen auf dem Markt "höchstens zwei oder drei" die Fähigkeit zur full - stack - Entwicklung haben. Die meisten Unternehmen stehen vor der Wahl: Soll man das "Gehirn" von Grund auf entwickeln oder von einem Drittanbieter beschaffen?

Die Branche des selbstfahrenden Autos hat schließlich gezeigt, dass die Schwelle für die full - stack - Entwicklung sehr hoch ist und nur wenige Automobilhersteller sie tragen können. Daher hat sich die Branche allmählich aufgeteilt: Einige neue Kraftfahrzeughersteller mit stärkerer finanzieller und technischer Stärke haben sich für die tiefe Eigenentwicklung entschieden, während mehr Automobilhersteller, einschließlich einiger traditioneller Großkonzerne und neuer Marken ohne Eigenentwicklungskapazität, sich mit Lieferanten wie Huawei, Momenta, DJI und Baidu zusammengetan oder einen Kompromiss zwischen "Teilmodul - Eigenentwicklung + Kernalgorithmen - Auslagerung" gewählt haben.

Liu Dong ist der Meinung, dass sich auch im Bereich des Embodied AI ein ähnliches Muster bilden wird: "Einige Unternehmen sind gut darin, Roboter zu bauen, andere sind gut darin, Modelle zu entwickeln, ähnlich wie wir es bei der Entwicklung des selbstfahrenden Autos in der Automobilbranche gesehen haben."

Basierend auf dieser Einschätzung hat Xingyuanzhi beschlossen, "keine Roboter selbst zu bauen". Die Außenwelt hat Xingyuanzhi einmal als "die Huawei des Embodied - AI - Sektors" bezeichnet, da es das "Gehirnmodell" und die Rechenleistung auf der Geräteebene anbietet und über 70 % der Spitzenhersteller von Roboter - Körpern bedient.

Es ist schwierig zu sagen, ob diese Entscheidung auf die "Fehler" von 2017 zurückzuführen ist oder einfach darauf, dass die Ingenieure sich an die Effizienzlogik der industriellen Wertschöpfungskette gewöhnt haben. Eines ist jedoch klar: Wenn ein Team bereits die Phase durchlaufen hat, in der man alles selbst machen wollte, wird es beim Eintritt in ein neues Schlachtfeld früher darüber nachdenken, "was anderen überlassen werden sollte".

Außer der Differenzierung des Geschäftsmodells bringen die Menschen aus der Branche des selbstfahrenden Autos auch eine realistische Vorstellung von der "Umsetzung" mit.

Im Bereich des selbstfahrenden Autos haben sie den Streit um die Route zwischen "Cloud - Rechenleistung oder Rechenleistung am Fahrzeug" erlebt und wissen, was die Latenzzeit für das Sicherheitssystem bedeutet.

Diese Erfahrung wird im Bereich des Embodied AI wiederbelebt: Wenn Liu Dong erklärt, warum die lokale Berechnung auf der Geräteebene unumgänglich ist, gibt er nicht eine technische Präferenz an, sondern eine physikalische Beschränkung. Wenn man mehrere Kameras und drei Lidar - Sensoren hat, beträgt die Datenmenge pro Sekunde mehrere Gigabyte. Wenn man diese Daten über Wi - Fi oder 5G in die Cloud senden würde, "würde der Roboter bereits kollidiert sein, bevor die Cloud die Berechnung abgeschlossen hat".

Daher akzeptieren sie früher die Notwendigkeit des "geschlossenen Kreislaufs auf der Geräteebene", anstatt es als eine Option zu diskutieren.

Der Embodied AI kann nicht einfach durch "große Anstrengungen" zum Erfolg kommen

Wenn man sich die Entwicklung des selbstfahrenden Autos anschaut, war zunächst das L5 und das Robotaxi am meisten im Mittelpunkt des Interesses. Aber es waren die ADAS und die L2 + Fahrerassistenzsysteme, die zuerst in das Verkehrssystem integriert wurden.

Sie waren nicht so aufregend wie das L5, aber sie haben in der laufenden Nutzung Daten gesammelt und das System verbessert, sodass das selbstfahrende Auto die Grundlage für die weitere Entwicklung erhielt.

Der Embodied AI durchläuft einen ähnlichen Prozess. Der Haushaltsroboter ist noch weit entfernt, und das universelle Roboter - Gehirn ist noch nicht ausgereift. Aber Szenarien wie Gabelstapler, Roboterhunde und logistische Sortierungen beginnen bereits, umgesetzt zu werden. Sie sehen vielleicht nicht am meisten wie Menschen aus, aber sie haben die beste Chance, den Datenkreislauf zu etablieren.

Wenn man sagt, dass die ADAS die Brücke zum L4 des selbstfahrenden Autos ist, dann sind heute die Gabelstapler und die Roboterhunde die Brücke zum AGI des Embodied AI.

Liu Dong hat die Schwierigkeit der Umsetzung in drei Ebenen eingeteilt. Die erste Ebene ist die "