Jahresrückblick 2025 auf die Branche der Embodied AI: Vom Auftakt der Pioniere zum rationalen Fortschritt
Ist Embodied Intelligence (eingebettete KI) die größte "Blase" von 2025?
Zu Beginn des Jahres hat Unitree einen Coup gespielt und den menschoidigen Roboter R1 für 5.900 US-Dollar vorgestellt. Vor einem Jahr ging die Branche davon aus, dass die Kostensenke für menschoidige Roboter bei 20.000 bis 30.000 US-Dollar liege. Unitrees Schritt hat die Preis-Erwartungen der gesamten Branche zerschmettert.
Anschließend ist der Unternehmenswert von Figure AI von 2,6 Milliarden US-Dollar im Jahr 2024 auf 39 Milliarden US-Dollar gestiegen, was einer 15-fachen Zunahme entspricht. Die Liste der Investoren liest sich wie eine Oscar-Verleihung im Tech-Bereich: Microsoft, OpenAI, NVIDIA, Jeff Bezos, Intel, Samsung.
Der Kapitalmarkt setzt massiv auf Embodied Intelligence, als wäre die Zukunft dieser Technologie schon um die Ecke.
Zur gleichen Zeit hat Tesla die Schilderung ausgerufen, 5.000 Exemplare des Optimus zu produzieren. Doch tatsächlich hat es nach der Fertigung von nur etwa 1.000 Einheiten die Produktion eingestellt und sich für eine Neukonstruktion entschieden. Elon Musks Aussage, dass "80 % des Werts von Tesla auf den Optimus entfallen würden", klingt angesichts der Realität etwas peinlich.
Dieser Kontrast zwischen Euphorie und Realität ist verwirrend. Wo steht die Entwicklung von Embodied Intelligence eigentlich? In diesem Artikel werden wir uns die Algorithmen, Hardware, Daten, Kapital und die Strategien der wichtigsten Akteure genauer ansehen.
01 Was ist Embodied Intelligence? Warum gab es 2025 einen Ausbruch?
Bevor wir uns mit der gegenwärtigen Situation der Branche befassen, klären wir zunächst, was Embodied Intelligence ist.
Wenn ChatGPT eine "redende" KI ist, dann ist Embodied Intelligence eine "handlungsfähige" KI. Ihr Kern ist das VLA-Modell (Vision-Language-Action), also das Modell für Sehen, Sprache und Handlung. Es integriert drei Komponenten in ein neuronales Netzwerk: Vision (Sehen): Es kann die aktuelle Szene wahrnehmen; Language (Sprache): Es versteht die Aufgabenstellung und allgemeines Wissen; Action (Handlung): Es gibt konkrete Steuerungsbefehle aus.
Einfach ausgedrückt, hat es drei Fähigkeiten: Es versteht die Umgebung, versteht Befehle und kann Handlungen ausführen.
Wie unterscheidet sich dies von herkömmlichen Robotern?
Stellen Sie sich vor, ein herkömmlicher Industrieroboter sei wie ein Schauspieler, der nur fest vorgegebene Texte auswendig lernt. Wenn Sie ihm ein Programm geben, führt er es schrittweise aus. Ein Roboter mit Embodied Intelligence ist eher wie ein Schauspieler, der improvisieren kann. Er kann Veränderungen in der Umgebung verstehen und eigenständig Entscheidungen treffen.
Wenn Sie ihm beispielsweise sagen, er soll Handtücher falten, muss ein herkömmlicher Roboter die Handtücher immer an der gleichen Stelle liegen haben. Ein Roboter mit Embodied Intelligence erkennt jedoch, dass das Handtuch diesmal zerknittert oder verschoben ist, und passt seine Bewegungsbahn an, um es dennoch ordnungsgemäß zu falten.
Dyna Robotics ist ein heiß begehrtes Startup im Bereich Embodied Intelligence im Silicon Valley. Es wurde vor einem Jahr gegründet und hat bereits in der Serie A 120 Millionen US-Dollar an Kapital beschafft. Der Unternehmenswert liegt bei 600 Millionen US-Dollar, und die Investoren umfassen auch NVIDIA. Das "Handtuchfalten" war das Demo-Projekt, das Dyna Robotics ins Rampenlicht rückte.
York Yang
Mitbegründer von Dyna Robotics
Einfach ausgedrückt, nehmen wir das VLM-Modell aus dem Bereich der großen Sprachmodelle als "Rückengrat", aber wir wandeln das Ergebnis am Ende in Aktionen um, die im Bereich der Robotik verwendet werden können. Aktionen sind beispielsweise Befehle, um den Arm an einen bestimmten Koordinatenpunkt zu bewegen.
Das, was an VLA am meisten kritisiert wird, ist: Warum brauchen wir die L-Komponente (Language, also "Sprache")? In herkömmlichen Robotikalgorithmen basieren viele auf reiner Vision. Wenn Sie aber darüber nachdenken, generiert Ihr Gehirn tatsächlich etwas Sprachähnliches, um Ihnen in einer langfristigen Aufgabe zu sagen, was Sie als ersten und zweiten Schritt tun sollen.
Die Rolle der Sprache besteht darin, dass für sehr komplexe Aufgaben logische Zusammenhänge, die in großen Sprachmodellen trainiert wurden, genutzt werden können. Wenn Sie beispielsweise trinken möchten, weiß das Modell, dass Sie ein Glas oder eine Flasche suchen müssen. Dies sind Informationen, die Ihnen direkt von einem großen Sprachmodell zur Verfügung gestellt werden können. Das Hauptziel der Verwendung von VLA besteht darin, Sprache und Vision besser zu verbinden. Wenn Sie nur Vision haben, können Sie möglicherweise nur kurzfristige Aufgaben bewältigen, keine langfristigen Aufgaben, die auf Schlussfolgerungen beruhen. Deshalb setzen wir so stark auf die Einbeziehung von Sprache.
Dies ist ein qualitativer Sprung: Roboter sind nicht mehr bloße mechanische Arme, die feste Programme ausführen, sondern intelligente Agenten, die verstehen, planen und anpassen können, indem sie Sehen, Sprache und Handlung kombinieren.
Embodied Intelligence ist kein neues Konzept. Warum gab es 2025 einen plötzlichen Ausbruch? Es gibt drei Faktoren.
Erstens: Die großen Sprachmodelle sind nahezu reif.
Ob OpenAI oder andere Unternehmen, die jüngst veröffentlichte großen Sprachmodelle zeigen eher inkrementelle Verbesserungen als sprunghafte Fortschritte wie von GPT - 3.5 zu GPT - 4. Unter diesen Umständen stabilisiert sich die Leistung der großen Sprachmodelle, und sie bieten eine zuverlässige Grundlage für Embodied Intelligence - Systeme.
ChatGPT hat gezeigt, dass große Sprachmodelle komplexe Befehle verstehen und Planungen entwickeln können. Diese Fähigkeiten können auf Roboter übertragen werden. Wenn Sie sagen, "Mach mir das Frühstück", kann der Roboter einen mehrstufigen Plan entwickeln, wie "Nimm zuerst Eier, schlage sie ein, dann mache das Feuer an und brate sie an".
Zweitens: Die Kosten für Rechenleistung sind halbiert und nochmal halbiert. Mit der ständigen Weiterentwicklung von leistungsfähigeren Chips durch die Hersteller sinken die Kosten pro Einheit Rechenleistung langfristig. In der Regel halbieren sich die Kosten für die gleiche Rechenleistung alle paar Jahre.
Im Jahr 2023 war die Miete für eine NVIDIA H100 GPU noch ein Vermächtnis. Heute gibt es einen heftigen Preiswettbewerb bei den Cloud - Dienstleistern, und die Kosten für das Training von großen Modellen sind stark gesunken. Was früher nur für die Top - Unternehmen möglich war, können jetzt auch Startups leisten.
Drittens: Die Hardware - Supply Chain ist reif.
Die Komponenten für Roboter - Hardware sind insgesamt relativ weit entwickelt. Insbesondere durch die Hype um menschoidige Roboter in den letzten Jahren wurden viel Kapital und Ingenieurskapazitäten in die Forschung und Entwicklung von Kernkomponenten wie Motoren und Getrieben investiert. Dies hat dazu geführt, dass die Technologien kontinuierlich verbessert werden und die Kosten sinken.
Unitree hat den Preis auf 5.900 US - Dollar gedrückt. Zuvor ging die Branche davon aus, dass eine Massenproduktion ab einem Preis von 20.000 bis 30.000 US - Dollar möglich sei. Der starke Abfall der Kosten macht die Kommerzialisierung von Embodied Intelligence jetzt realistisch.
Diese drei Kräfte zusammen haben Embodied Intelligence aus dem Labor in die Nähe der Kommerzialisierung gebracht. Dies ist keine blinde Optimismus, sondern eine rationale Einschätzung auf der Grundlage der technologischen Reife. Wo liegen die Grenzen der Fähigkeiten von Embodied Intelligence und was kann es tun?
02 Was können Roboter jetzt schon tun?
Kapitel 2.1: Bereits erledigte Aufgaben
Lasst uns zunächst die Aufgaben betrachten, die bereits gelöst werden können: Es gibt bereits praktische Anwendungen in Industrie - und Geschäftsgebieten.
Das Falten von Handtüchern und Kleidern klingt einfach, aber Dynas Roboter können 700 Handtücher in 24 Stunden falten, mit einer Erfolgsrate von 99,4 %. Dies ist in Hotels und Wäschereien bereits eine echte Produktivitätssteigerung. Darüber hinaus enthält ihr Basis - Modell Daten aus verschiedenen Szenarien, wie das Schneiden von Gemüse und Früchten, die Zubereitung von Lebensmitteln, die Frühstücksreinigung und die Logistik - Sortierung.
In den Fabriken der BMW Group arbeiten Figure - Roboter an einfachen Montagearbeiten und der Materialbeförderung. Agility Robotics' Digit bewegt Kisten in der Lagerlogistik. 1X wird bis zu 10.000 Exemplare des menschoidigen Roboters 1X Neo an den schwedischen Konzern EQT liefern, hauptsächlich für industrielle Anwendungen in der Fertigung, Lagerung und Logistik. Ganz zu schweigen von Amazon, das bereits 1 Million spezialisierte Roboter eingesetzt hat, was fast die Anzahl seiner 1,56 Millionen menschlichen Mitarbeiter übersteigt.
Dies sind keine Demo - Projekte, sondern echte geschäftliche Anwendungen. Dies ist der Ansatz des "rationalen Fortschritts": Es geht nicht darum, alles zu können, sondern darum, nützlich zu sein.
Kapitel 2.2: Aufgaben, die noch gelöst werden müssen
Was können Roboter noch nicht und welche Aufgaben arbeiten die Top - Unternehmen gerade an? Beispielsweise: Aufgaben von mittlerer Schwierigkeit, wie das Zubereiten von Frühstück.
Dies ist eine "langfristige Aufgabe", die mehrere Schritte erfordert: Das Holen von Lebensmitteln, das Schneiden von Gemüse, das Anrichten des Tellers, das Anmachen des Ofens und das Braten. Jeder Schritt muss präzise ausgeführt werden, und die Kraft muss kontrolliert werden, damit man kein Ei zerdrückt oder sich beim Schneiden nicht verletzt. Dynas neuestes Demo zeigt, dass diese langfristige Aufgabe bereits gelöst wurde.
Figure hat auch ein Demo gezeigt, bei dem zwei Roboter zusammenarbeiten. Einer reicht Werkzeuge, der andere bedient sie. Dies wäre in privaten Haushalten nützlich, aber die Stabilität muss noch verbessert werden.
Kapitel 2.3: Aufgaben, die noch nicht möglich sind
Die schwierigsten Aufgaben sind die Hausarbeiten. Denn jedes Haushalt ist unterschiedlich. Die Beleuchtung, die Anordnung von Gegenständen und das Bewegen der Haushaltsmitglieder stellen Herausforderungen in einer "nicht - strukturierten Umgebung" dar.
Im Vergleich dazu ist eine Fabrik eine "strukturierte Umgebung" mit fester Beleuchtung, festen Gegenstandsplätzen und standardisierten Prozessen. Zuhause ist es jedoch völlig anders. Außerdem besteht bei Hausarbeiten die strenge Forderung nach Fehlertoleranz von Null. Wenn ein Roboter in der Fabrik ein Teil zerbricht, ist der Schaden beherrschbar. Zuhause kann das Zerbrechen eines Tellers oder das Verletzen einer Person zu einem Unfall führen.
Wang Hao
CTO von Independent Variable Robotics
Beispielsweise kann eine kleine Falte im Tischtuch dazu führen, dass ein Glas instabil steht, oder ein transparenter Gegenstand kann das Licht reflektieren und die Kamera stören. Diese kleinen physikalischen Ver