StartseiteArtikel

Wie kann Embodied AI den "ChatGPT-Moment" erreichen? Der Direktor von BAAI, ein Professor der Tsinghua-Universität und drei Gründer haben darüber gesprochen.

富充2026-02-13 18:49
Bevor Sie sich für Generalisierung einsetzen, sollten Sie zunächst in einem einzigen Szenario die geschlossene Schleife der Validierung erreichen und ein echten Geräte-Daten-Flywheel aufbauen.

Text | Fu Chong

Redaktion | Su Jianxun

Embodied Intelligence wartet auf seinen „ChatGPT - Moment“. Doch die Branche hat sich noch nicht auf eine konkrete Definition dieses Moments geeinigt.

In letzter Zeit wurde dieses Problem auf einem Round - Table - Forum anlässlich des Technologie - Offenheitstages von Yuanli Lingji von fünf führenden Praktikern aus der AI - Branche, aus Industrie, Wissenschaft und Forschung, diskutiert. Sie sind:

Professor Wang Yu der Fakultät für Elektronik und Informationstechnik der Tsinghua - Universität

Direktor Wang Zhongyuan des Peking AI - Instituts

Gründer und CEO von Jieyue Xingchen, Jiang Daxin

Gründer und CEO von Xinghaitu, Gao Jiyang

Mitgründer und CEO von Yuanli Lingji, Tang Wenbin

Jiang Daxin, Gründer und CEO von Jieyue Xingchen, hat zunächst die Definitionskriterien für den „ChatGPT - Moment“ als „Null - Sample - Generalisierung“ formuliert. Das bedeutet, dass die KI auch auf Befehle, die sie noch nie gesehen hat, Fragen beantworten und Aufgaben erfüllen kann. Dies ist die Fähigkeit, die von großen Sprachmodellen gezeigt wird.

Jiang Daxin hat jedoch sofort darauf hingewiesen, dass es für Roboter sehr schwierig ist, dieses Kriterium zu erreichen, da die Generalisierung von Embodied Intelligence auf weitere Dimensionen wie Szenarien, Aufgaben und manipulierte Objekte Bezug nimmt.

Als CEO eines Roboter - Start - Ups hat Gao Jiyang die Schwierigkeiten bei der kommerziellen Umsetzung von Embodied Intelligence weiter erklärt: Große Sprachmodelle können „Modell = Produkt“ sein, wobei das Terminal ein Handy oder Computer ist und der Vertriebskanal das Internet ist. Embodied Intelligence muss jedoch eine längere Wertschöpfungskette durchlaufen, einschließlich des gesamten Geräts, der Lieferkette, der echten Gerätedaten und der Offline - Lieferung. Keiner dieser Aspekte darf fehlen.

Angesichts all dieser zu lösenden Probleme hat Tang Wenbin, Mitgründer und CEO von Yuanli Lingji, einen derzeit erreichbareren „ChatGPT - Moment für Embodied Intelligence“ vorgeschlagen: Zunächst sollten alle Probleme in einem eingeschränkten Szenario in einem geschlossenen Kreislauf gelöst werden, und der ROI sollte positiv ausfallen.

Sein Grund ist einfach: Der ChatGPT - Moment hat gezeigt, dass Sprachmodelle als Werkzeuge nutzbar sind. Damit sich auch bei Embodied Intelligence eine solche Veränderung ergibt, muss sie von einem Spielzeug oder einem Forschungsprojekt zu einem nützlichen Ding werden.

Deshalb ist auf diesem Round - Table - Forum ein erster Konsens über die aktuelle Entwicklungsrichtung von Embodied Intelligence erzielt worden: Bevor man eine stärkere Generalisierung anstrebt, sollte man zunächst ein spezielles Szenario erfolgreich umsetzen, damit die Roboter in der Praxis echte Gerätedaten sammeln können, und dann diese Daten nutzen, um das Modell und das System zu verbessern.

Dieser Gedanke erklärt auch die Wahl der Strategie von Yuanli Lingji, dem Veranstalter dieses Round - Table - Forums: Bevor die Daten - Schleife in Gang kommt, muss es ein einheitliches Maßstab für die Bewertung der echten Geräte geben. Deshalb hat Yuanli Lingji vor der Veröffentlichung seines eigenen Modells und Geräts zusammen mit HuggingFace das echte Geräte - Benchmark „RoboChallenge“ herausgebracht.

Yuanli Lingji wurde im März 2025 gegründet. Der Gründer Tang Wenbin war Mitgründer von Megvii Technology. Das Hauptteam der Firma umfasst auch mehrere ehemalige Kernmitglieder von Megvii Technology. Weniger als ein Jahr nach der Gründung hat Yuanli Lingji bereits fast 1 Milliarde Yuan an Kapital gesammelt. Zu den Aktionären gehören Alipay, NIO Capital und Lenovo Capital.

Am 10. Februar hat dieses von den Kapitalmärkten geschätzte Start - Up sein erstes Modell DM0 vorgestellt, das mit 2,4 Milliarden Parametern die Spitze der RoboChallenge - Rangliste erreicht hat. Natürlich sind auch Zweifel aufgetreten: „Kann derjenige, der die Bewertung initiiert hat, auch als Teilnehmer mitmachen?“ Tang Wenbin hat auf der Round - Table - Diskussion auch auf die Überlegungen hinter der Vorabveröffentlichung des Benchmarks, die Wichtigkeit der echten Gerätebewertung und die Fragen aus der Branche geantwortet.

Nachfolgend ist der Inhalt des Round - Table - Dialogs, nachbearbeitet vom Autor:

△Gäste des Round - Table - Forums, Bild: Yuanli Lingji

Moderator: Welche gängigen Technologiestrategien gibt es für Embodied - Intelligenzmodelle weltweit, und in welchem Stadium befinden wir uns derzeit?

Wang Zhongyuan: Hinter der Popularität von Embodied Intelligence sehe ich viele Bedenken. Obwohl die Hardwareentwicklung schnell voranschreitet, gibt es noch eine Reihe von Problemen zu lösen, wie kontinuierliche und stabile Arbeitsweise, Sicherheit und Batterie.

In Bezug auf die Modelle: Obwohl in den letzten Monaten eine Reihe von Embodied - Modellen veröffentlicht wurden, befinden wir uns meiner Meinung nach noch weit entfernt vom ChatGPT - Moment für Embodied Intelligence. Insbesondere nach der Implementierung von Embodied - Intelligenzmodellen und Hardware auf echten Geräten ist die Lücke zur gewünschten Massenanwendung noch sehr groß.

Derzeit befindet sich die Technologiestrategie für Embodied - Modelle noch in der Entwicklung. Häufig diskutierte Ansätze sind die modularen Methoden wie VLM plus Steuerung oder das end - zu - end - VLA, einschließlich des derzeit in der Forschung sehr beliebten Weltmodells. Ich denke jedoch, dass wir noch lange nicht an einem Punkt sind, an dem wir stolz behaupten können, dass die Embodied Intelligence vollständig durchbrochen ist.

Es ist daher sehr wahrscheinlich, dass wir in Zukunft sehen werden, dass durch VLA + Reinforcement Learning einzelne Szenarien gelöst werden. Zunächst sollen die Roboter anfangen zu arbeiten, um mehr Daten auf echten Geräten zu sammeln und einen geschlossenen Datenkreislauf zu bilden, und schließlich das Problem der Generalisierung zu lösen.

Wang Yu: Ich befasse mich eher mit Hardware, einschließlich Rechenleistung, Frameworks, Edge - Computing und Infrastruktur. Aus meiner Sicht sind die gegenwärtigen Roboteranwendungen zwar schon sehr fortschrittlich, aber dennoch auf einen Arbeitsplatz beschränkt. Im Wesentlichen ist es noch schwierig, Gehirn und Körper eines Roboters so zu koordinieren, dass er eine etwas längere Aufgabe über mehrere Modalitäten hinweg ausführen kann.

In meiner Gruppe diskutieren wir, wie weit die Fähigkeiten von Embodied - Robotern gehen müssen. Beispielsweise bei der Aufgabe, ein Zimmer aufzuräumen, muss der Roboter nicht nur ein T-Shirt falten, sondern auch den Zustand des gesamten Zimmers beurteilen, überlegen, wie es aussehen soll, und dann Schritt für Schritt anfangen zu arbeiten, bis das Zimmer sauber ist. Dies ist ein sehr schwieriges Problem.

Natürlich müssen die Modelle einen Durchbruch erzielen. Ich frage mich auch, ob sich das Zimmer selbst ändern muss, wenn so komplexe Aufgaben gelöst werden sollen. Da ich aus dem Bereich der Hardware komme, überlege ich manchmal, ob die Architektur eines Hauses in Zukunft so gestaltet werden sollte, dass es mit Robotern kompatibel ist, da es bisher nur auf das menschliche Leben zugeschnitten war. Genau wie bei der Fahrzeug - Infrastruktur - Kooperation können wir auch Infrastrukturen für Roboter schaffen.

 

Moderator: Herr Wang hat gesagt, dass in den zukünftigen Wohnstandards möglicherweise die Dimension der Roboter miteinbezogen werden muss. Was hält Herr Wang angesichts der Infrastruktur von den Stärken und Schwächen Chinas und Siliziumtals in der Branche der Embodied Intelligence?

Wang Yu: Die Vereinigten Staaten haben in Bezug auf Modelle und Daten früher begonnen, einige Dinge zu tun, und es sind einige Anwendungen und Durchbrüche erzielt worden. Aber wenn es um die Umsetzung geht, bin ich fest davon überzeugt, dass China schnell aufholen kann, insbesondere da China in der Dimension der Embodied Intelligence inzwischen stärker investiert als die Vereinigten Staaten.

Viele Leute sagen, dass die Embodied - Branche eine Blase ist. Ich persönlich denke, dass es gut ist, dass China in eine Richtung investiert, in der es stärker investiert als die Vereinigten Staaten. Denn die gesamte Wertschöpfungskette und Lieferkette in China ist komplett. Wenn die Anwendungen noch weiter geöffnet und die Investitionen in Modelle und Anwendungen erhöht werden, besteht die Möglichkeit, dass China in der Embodied - Branche schnellere Durchbrüche erzielt als die Vereinigten Staaten.

Darüber hinaus gibt es in China zunehmend eine Zusammenarbeit zwischen Wissenschaft und Industrie. So sitze ich hier selbst. Tatsächlich werden Probleme aus der Industrie an Forschungsinstitute weitergeleitet, anstatt dass die Professoren nur in ihrem Büro Artikel lesen und forschen. Ich denke, dass sich China hier langsam an die USA angleicht, indem Wissenschaft und Industrie zusammenarbeiten, um die Embodied - Richtung voranzutreiben.

 

Moderator: Wir haben festgestellt, dass auf der „Super Bowl“, die als amerikanisches Volksfest gilt, viele Werbeanzeigen für LLM zu sehen waren. Auf unserem chinesischen Neujahrsfest gingen dagegen hauptsächlich Roboter auf die Bühne. Hat Direktor Wang Zhongyuan etwas zu diesem Thema zu sagen?

Wang Zhongyuan: Ich möchte zwei kleine Geschichten erzählen.

Die erste Geschichte hat mir ein Investor erzählt. Amerikanische Investoren in Embodied Intelligence schauen oft, ob in einem Gründerteam Chinesen sind. Sie glauben, dass nur mit Chinesen in einem Team die Chancen für den Erfolg eines Start - Ups in der Embodied - Branche bestehen.

Die zweite Geschichte: Bei der Weiterentwicklung unserer Embodied - Intelligenzmodelle hatten wir oft das Problem, dass die Hardware beschädigt war. Wenn die Hardware kaputt war, dauerte die Reparatur oft zwei Wochen. Wir haben gehört, dass in den USA die Reparatur von defekten Robotern drei Monate dauert. Das hat uns dann wieder beruhigt.

Wir können also sehen, dass China tatsächlich Vorteile in der Fertigung hat, was ein Vorteil für die Entwicklung von Embodied Intelligence ist. Darüber hinaus befindet sich die gesamte Branche noch in der Anfangsphase, und alle befinden sich in einer Phase des schnellen Wachstums und der Weiterentwicklung. Es ist also noch lange nicht entschieden, wer die Stärken und Schwächen hat.

 

Moderator: Wir haben über den „Chinesen - Anteil“ in amerikanischen Embodied - Start - Ups gesprochen. Im gesamten Bereich der Künstlichen Intelligenz ist der „ChatGPT - Moment“ ein sehr wichtiger Meilenstein. Was halten Sie von dem „ChatGPT - Moment für Embodied Intelligence“? Herr Jiang Daxin von Jieyue Xingchen sollte eine tiefere Einsicht in diesen Moment haben?

Jiang Daxin: Zunächst möchte ich die Definition des „ChatGPT - Moments“ erläutern. Ich denke, dass das markanteste Merkmal die „Null - Sample - Fähigkeit“ ist. Die Fähigkeit, auf neue, bisher nicht gesehene Befehle zu reagieren und Fragen zu beantworten, ist völlig anders als bei der herkömmlichen natürlichen Sprachverarbeitung. Deshalb hat der „ChatGPT - Moment“ so viel Aufsehen erregt.

Wenn wir jedoch die natürliche Sprachverarbeitung mit der Embodied Intelligence vergleichen, denke ich, dass der „ChatGPT - Moment für Embodied Intelligence“ schwieriger zu erreichen ist.

Zunächst kann die Generalisierung von Embodied Intelligence aus verschiedenen Dimensionen definiert werden. Dies führt dazu, dass es keine Einigkeit darüber gibt, was der „ChatGPT - Moment für Embodied Intelligence“ ist.

Die erste Dimension ist die Szenariogeneralisierung, z. B. ob es sich um ein geschlossenes, halbgeschlossenes oder vollständig offenes Szenario handelt. Die zweite Dimension ist die Aufgabe, wie Navigationsaufgaben, Greifaufgaben oder Haushaltsarbeiten. Die dritte Dimension ist die Generalisierung des Ziels. Selbst bei einer einfachen Greifbewegung können die zu greifenden Objekte aus Stahl oder weichen Materialien sein.

Zweitens denke ich, dass von technischer Seite her die Embodied Intelligence die Computervision einschließt. Bei einigen grundlegenden Fragen gibt es jedoch keine Einigkeit. Beispielsweise wie die Vision codiert werden soll, wie die Selbstüberwachung und das Pre - Training durchgeführt werden sollen, und wie die Inferenz im 3D - Raum funktioniert. Ich denke, dass es hier noch einige Durchbrüche geben muss, bevor wir den ChatGPT - Moment erreichen können.

 

Moderator: Die Definition des „ChatGPT - Moments für Embodied Intelligence“ ist sehr wichtig. Wie definieren Sie diesen Moment, meine beiden Gäste, die sich speziell mit Embodied Intelligence befassen?

Gao Jiyang: Ich denke, dass diese Frage sehr interessant ist. Ich denke, dass es ein noch grundlegendes Problem gibt, nämlich dass die Branchen der Embodied Intelligence und der Sprachmodelle zwar beide auf der Innovation der KI - Technologie basieren, aber in der Praxis sehr unterschiedlich sind.

Bei der Embodied Intelligence ist die Kette von der Technologieentwicklung über die Produktplanung bis zur kommerziellen Umsetzung länger. Sie umfasst die Lieferkette von Komponenten und Daten von oben und unten, und die Daten für Embodied Intelligence gab es bisher nicht. Dann muss man Algorithmen entwickeln. Darüber hinaus sind die Vertriebskanäle und Endgeräte auch anders als bei großen Sprachmodellen. Die Endgeräte von großen Sprachmodellen sind Handys und Computer, und der Vertriebskanal ist die soziale Medien - Kommunikation.

Deshalb stellen Sie fest, dass bei großen Sprachmodellen das einzig knapp und fehlende Element das Modell selbst ist. Daher ist das Modell gleich dem Produkt. Wenn das Modell gut ist, ist die gesamte kommerzielle und industrielle Kette in Gang gesetzt.

Bei der Embodied Intelligence sind die Lieferkette und die Komponenten noch sehr unausgereift. Ohne das gesamte Gerät gibt es keine guten echten Gerätedaten. Das Endgerät der Embodied Intelligence ist der Roboter selbst, was auch die Offline - Vertriebskanäle einschließt.

Zurück zur ursprünglichen Frage: Ich denke, dass der „ChatGPT - Moment für Embodied Intelligence“ im Geschäftsablauf dann erreicht ist, wenn wir es in bestimmten Grenzen als kommerziell wertvoll erkennen.

Ich denke, dass 2026 ein Jahr der Veränderung sein wird, denn das gesamte Gerät und die Lieferkette haben sich in den letzten zwei Jahren stark verändert. Wir haben auch viele Daten. Die Einführung von Modellen, Algorithmen, Reinforcement - Learning im Nach - Training, VLA im Pre - Training und des World - Models hat die Generalisierungsfähigkeit des Pre - Trainings und den Erfolg des Nach - Trainings stark verbessert.

Ich denke, dass 2026 das Jahr der geschlossenen Anwendungs - Schleife sein wird. Im ersten Halbjahr 2025 haben wir eine anfängliche Entwicklung der Intelligenz beobachtet, und im zweiten Halbjahr 2025 hat sich die Entwicklung stark beschleunigt. Ein wichtiger Indikator ist die Anzahl der Open - Source - Modelle in der Open - Source - Community.

2026 wird ein Jahr des Intelligenz - Ausbruchs sein. Das Ergebnis wird in bestimmten Anwendungsbereichen zu einer Ausbreitung der Anwendungen führen und gleichzeitig die Lieferkette und das gesamte Gerät unterstützen. Insbesondere in China ist die Leistung deutlich besser als in den Vereinigten Staaten, mit einer fünf - bis zehnmal schnelleren Zykluszeit und einem fünf - bis zehnmal geringeren Kostenlevel.

Tang