Embodied Intelligence wartet sehnsüchtig auf den "ChatGPT-Moment".
Schnelles Lesen
- Die Verbreitung von Großmodellen hängt fast nicht von zusätzlicher physischer Infrastruktur ab: Die Rechenleistung ist in der Cloud konzentriert, und das Terminal ist nur der Zugang. Bei der Embodied Intelligence ist es völlig anders. Sie ist ein physikalisches System, das Hardware, Algorithmen, Umweltwahrnehmung und Wartungssysteme integriert.
- Die meisten gegenwärtigen Roboter haben zwar große Fortschritte gemacht, aber sie sind immer noch "auf einer Arbeitsplattform eingeschränkt" und haben Schwierigkeiten, kontinuierlich komplexe Aufgaben über verschiedene Räume und Modalitäten hinweg zu erledigen.
- Für die Embodied Intelligence ist der "ChatGPT-Moment" eher eine entlehnte Metapher als ein replizierbarer Weg. Wenn die Großmodelle die Sprungkraft der Algorithmen bewiesen haben, dann prüft die Embodied Intelligence die Ausdauer des gesamten Industriessystems.
Unter den vielen Zweigen der künstlichen Intelligenz ist die Embodied Intelligence einer der am häufigsten erwähnten Richtungen in den letzten Monaten.
Von Industrierobotern über Dienstleistungsroboter bis hin zu autonom fahrenden Fahrzeugen und Humanoiden werden die verschiedenen Technologierouten in regelmäßigen Abständen mit der Hoffnung auf einen "Eingang zur allgemeinen Intelligenz" belastet.
Im Gegensatz zur softwaregetriebenen Revolution der Algorithmen wird ihre Entwicklung jedoch immer wieder durch die Reibung der realen Welt verlangsamt.
Wenn man nur die öffentlichen Videos betrachtet, wird die öffentliche Erzählung der Embodied Intelligence fast von einer Gruppe ähnlicher Bilder dominiert: Roboter laufen stabiler, greifen genauer, machen flüssigere Bewegungen und bewältigen komplexere Aufgaben. Die Finanzierung beschleunigt sich, die Modelle werden iteriert, und die Embodied Intelligence scheint auf einer eindeutigen Aufwärtstrendkurve zu sein.
Erfolge werden im Kreis wiederholt, Misserfolge werden herausgeschnitten - außerhalb des Labors gibt es eine andere Erzählung: Die Implementierungskosten, die Stabilität und die Wartungskomplexität verlängern weiterhin die Zeitpläne für die Kommerzialisierung.
Am 10. Februar fand der erste Technologie-Open Day von Yuanli Lingji im Ausstellungszentrum des Nationalen Demonstrationsgebiets für unabhängige Innovation in Zhongguancun, Peking, statt.
Yuanli Lingji hat drei Kernprodukte vorgestellt: Das Embodied Native Large Model DM0, das Embodied Native Development Framework Dexbotic 2.0 und den Embodied Native Application Mass Production Workflow DFOL. Dies war auch das erste Mal, dass das Kernteam des Unternehmens seit seiner Gründung vor fast einem Jahr öffentlich aufgetreten ist.
Bei dem "Physical AI Next Roundtable Forum" an diesem Tag haben fünf Gäste aus Industrie, Wissenschaft und Forschung etwa die Hälfte der Zeit damit verbracht, eine Frage zu diskutieren:
Wann wird der ChatGPT-Moment der Embodied Intelligence eintreten?
Der ChatGPT-Moment der Embodied Intelligence - dies ist ein komplexer Begriff, der technologische Durchbrüche, Produkt-Erlebnisse und kommerzielle Vorstellungen vereint. Er bezieht sich sowohl auf den Sprung der Modellfähigkeiten als auch auf die Hoffnung, dass es wie ChatGPT von Nicht-Technologie-Nutzern schnell verstanden, kostengünstig genutzt und in Massen verbreitet werden kann.
Es geht um eine gewisse Aufregung des technologischen Optimismus. Schließlich sind die Großmodelle nach der Veröffentlichung von ChatGPT schnell aus dem Labor in die Hände von Hunderten von Millionen von Nutzern weltweit gelangt und einen deutlich erkennbaren Sprung gemacht.
Natürlich fragt man sich, ob die künstliche Intelligenz, wenn sie einen Körper bekommt - wenn sie laufen, greifen und physische Objekte in der realen Welt manipulieren kann - auch einen ähnlichen Ausbruchspunkt erleben wird?
Der Erfolg von ChatGPT liegt darin, dass es ein Erlebnis bietet, das kostengünstig zu nutzen ist und dessen Ergebnisse äußerst stabil und wiederholbar überprüfbar sind: Jeder kann einen Browser öffnen, einen Satz eingeben und binnen Sekunden ein Ergebnis erhalten. Diese "Plug-and-Play"-Eigenschaft hat es schnell zu einem universellen Werkzeug gemacht.
Was noch wichtiger ist, hängt die Verbreitung von Großmodellen fast nicht von zusätzlicher physischer Infrastruktur ab: Die Rechenleistung ist in der Cloud konzentriert, und das Terminal ist nur der Zugang. Für die Industrie war dies ein typischer "Leichtvermögen-Sprung".
Die Embodied Intelligence ist völlig anders. Sie ist ein physikalisches System, das Hardware, Algorithmen, Umweltwahrnehmung und Wartungssysteme integriert.
Wang Zhongyuan, Präsident des Peking Institute of Artificial Intelligence, meint, dass selbst wenn die Modellfähigkeiten verbessert werden, es noch lange nicht den ChatGPT-Moment der Embodied Intelligence erreicht hat. "Insbesondere nachdem die Modelle und die physischen Roboter der Embodied Intelligence implementiert wurden, haben wir festgestellt, dass es noch einen großen Abstand zu der wirklich gewünschten Massenanwendung gibt."
Dieser Abstand rührt von der inhärenten Unsicherheit der realen Welt her - ob der Boden eben ist, ob sich das Licht ändert, ob es kleine Toleranzen bei den Bauteilen gibt, ob die Sensoren altern... Jede einzelne Variable kann dazu führen, dass eine Aufgabe fehlschlägt.
Deshalb befindet sich die Embodied Intelligence derzeit noch im Stadium des "Demonstrierens" und nicht des "Massenreproduzierens": Ein einzelner Erfolg bedeutet nicht zwangsläufig einen systemischen Erfolg.
Was noch wichtiger ist, kann sich derselbe Roboter zu verschiedenen Zeiten und an verschiedenen Orten völlig unterschiedlich verhalten. Das bedeutet, dass er nicht wie ChatGPT allen Nutzern ein einheitliches und vorhersehbares Erlebnis bieten kann. Das Wesen des "Moments" hängt jedoch genau von dieser kollektiv wahrnehmbaren Veränderung ab.
Wang Yu, langjähriger Professor der Fakultät für Elektronik und Informationstechnik der Tsinghua-Universität, meint, dass die meisten gegenwärtigen Roboter zwar große Fortschritte gemacht haben, aber immer noch "auf einer Arbeitsplattform eingeschränkt" sind und es schwierig haben, kontinuierlich komplexe Aufgaben über verschiedene Räume und Modalitäten hinweg zu erledigen.
Er hat sogar eine umwerfende Vorstellung: Möglicherweise muss die zukünftige Wohnungsgestaltung eine "Robot-Kompatibilität" integrieren. Das heißt, anstatt die Roboter zu "verlangen", sich an die chaotischen menschlichen Lebensumgebungen anzupassen, sollten die Gebäude und die Infrastruktur sich stattdessen für die Maschinen optimieren.
Die Xuebao Finance Society meint, dass dieser Weg in der Industriegeschichte nicht neu ist - Fließbänder, Aufzüge, automatische Türen haben alle zuerst den Raum verändert und dann den Automatisierungsnutzen freigesetzt. Die Embodied Intelligence benötigt möglicherweise auch eine ähnliche "Umwelttechnik".
Wang Yus Ansicht zeigt auch einen großen Unterschied zwischen Großmodellen und Embodied Intelligence auf: Die Großmodelle laufen in einer hochgradig standardisierten digitalen Welt, während die Embodied Intelligence in eine physische Welt eintritt, die für Menschen und nicht für Maschinen entworfen wurde. Die erste ist ein Schachbrett mit klaren Regeln, die zweite ist eine Wildnis voller Rauschen.
Wie genau sollte man den ChatGPT-Moment definieren?
Nach Ansicht von Jiang Daxin, Gründer und CEO von Jieyue Xingchen, ist ein markantes Merkmal das Zero-Shot-Lernen. "Zero-Shot-Generalisation, d. h. ihm eine beliebige Anweisung zu geben, auch wenn er sie zuvor noch nicht gesehen hat, und er kann die Frage beantworten. Dies unterscheidet sich völlig von der herkömmlichen natürlichen Sprachverarbeitung, und das ist der Grund, warum der ChatGPT-Moment so aufregend ist."
Wenn man natürliche Sprache und Embodied Intelligence vergleicht, findet Jiang Daxin, dass der "ChatGPT-Moment" der Embodied Intelligence schwieriger zu erreichen ist. Er erklärt weiter: Die Generalisierung der Embodied Intelligence betrifft mehrere Dimensionen wie Szenarien, Aufgaben, Ziele usw. Es besteht selbst bei der Definition eines "Durchbruchs" in keiner dieser Dimensionen ein Konsens.
Ein reiner technologischer Durchbruch entspricht nicht unbedingt einem Wendepunkt in Bezug auf das Produkt oder die Branche. Diese Diskrepanz ist der Grund, warum der "ChatGPT-Moment" im Bereich der Embodied Intelligence immer wieder diskutiert, aber schwer zu erreichen ist.
Wenn es kein einheitliches Maß für "Erfolg" gibt, wird der "Moment" natürlich zu einer vagen Metapher.
Diejenigen Unternehmer, die sich wirklich der kommerziellen Umsetzung nähern, wenden sich einer realistischeren Definition zu. Der Mitgründer und CEO von Yuanli Lingji, Tang Wenbin, sieht den ChatGPT-Moment der Embodied Intelligence darin, dass sie nützlich, vertrauenswürdig wird und dass sich die Rendite auf die Investition (ROI) rechnen lässt.
Tang Wenbin gesteht ein: "Obwohl die Branche sehr heiß und florierend ist, befinden wir uns tatsächlich noch im Kinderschuhenlaufen-Stadium der (Embodied) Intelligenz."
Nach Ansicht von Gao Jiyang, Gründer und CEO von Xinghaitu, ist bei den Großmodellen "das Modell das Produkt". Die Endgeräte großer Sprachmodelle sind Mobiltelefone und Computer, und die Verbreitungskanäle sind soziale Medien. Wenn das Modell gut ist, ist die gesamte kommerzielle und industrielle Kette sofort vorhanden. Die Kette der Embodied Intelligence ist jedoch extrem lang, von der Lieferkette, der Montage des gesamten Geräts bis hin zum Daten-Closed-Loop und der Kundendienst usw. Der Algorithmus ist sogar der Teil mit der kürzesten Verbreitungszeit.
Das bedeutet, dass der kommerzielle Rhythmus der Embodied Intelligence eher die Eigenschaften der Fertigungsindustrie aufweist: Die Kapitalrückzahlung ist langsam, die Kosten für Misserfolge sind hoch, und wenn eine einzelne Kette bricht, wird das Gesamtrisiko vergrößert. Ein einzelner technologischer Durchbruch kann schwerlich den kommerziellen Prozess des gesamten Systems in Gang setzen. "Wenn man von der Geschäftsproduktionslinie spricht, ist der ChatGPT-Moment der Embodied Intelligence der Moment, in dem wir tatsächlich sehen, dass sie in bestimmten begrenzten Bereichen kommerziellen Wert hat." sagte Gao Jiyang.
Für die Embodied Intelligence ist der "ChatGPT-Moment" eher eine entlehnte Metapher als ein replizierbarer Weg.
Der wahre Wendepunkt der Embodied Intelligence wird sich möglicherweise nicht als ein von der ganzen Nation beobachtetes technologisches Wunder manifestieren, sondern eines Tages wird sie in Fabriken, Lagerhäusern und Gebäudekomplexen stumm zu einem "unentbehrlichen, aber nicht diskutierten" Bestandteil werden.
Aber bevor dieses Endspiel eintritt, wird ihre Reife eher wie die Entwicklung von Infrastruktur sein - langsam, leise, aber unverzichtbar.
Wenn die Großmodelle die Sprungkraft der Algorithmen bewiesen haben, dann prüft die Embodied Intelligence die Ausdauer des gesamten Industriessystems.
In diesem Long-Distance-Lauf ohne "Wunder" wird der Sieger vielleicht nicht die Firma mit den coolsten Algorithmen sein, sondern diejenige, die am besten mit der Lieferkette umgehen kann, am besten in der Lage ist, einen physischen Roboter-Closed-Loop zu realisieren und am ehesten bereit ist, sich in konkrete Szenarien einzubringen.
Dieser Artikel stammt aus dem WeChat-Account "Xuebao Finance Society" (ID: xuebaocaijingshe), geschrieben von Cao Quanjing und redigiert von Huang Yuntao. Veröffentlicht von 36Kr mit Genehmigung.