Google hat ein lokales VLA-Modell veröffentlicht. Kommt jetzt das "Android-System" der Roboterwelt?
„In der Vergangenheit waren viele Roboter-AI-Systeme aufgrund der begrenzten Bandbreite und Rechenleistung nur in der Lage, Demonstrationen durchzuführen. Der Fortschritt von Google bedeutet, dass ein universelles Modell tatsächlich auf einem Hardware-Endgerät laufen kann und in Zukunft komplexe Operationen auch ohne Internetverbindung ausführen kann.“
Am 25. Juni hat Google DeepMind offiziell das erste visuell-sprachlich-aktionale Modell (Visual-Language-Action, VLA), das vollständig lokal auf einem Roboter deployiert werden kann, namens Gemini Robotics On-Device, vorgestellt.
Dies bedeutet auch, dass der Embodied AI (eingebettete Künstliche Intelligenz) von der Abhängigkeit von Rechenleistung in der Cloud in einen entscheidenden Wendepunkt für die lokale und autonome Funktion eintritt und neue Möglichkeiten für die industrielle Umsetzung eröffnet.
Schnelles Lernen mit wenigen Demonstrationen und Generalisierungsfähigkeit über verschiedene Roboterformen hinweg
Seit langem stehen der Implementierung von Embodied AI zwei große Herausforderungen gegenüber: Erstens die starke Abhängigkeit von Cloud-Rechenressourcen, die die Fähigkeit des Roboters, unabhängig von einem Netzwerk oder in einem instabilen Netzwerkbetrieb zu arbeiten, einschränkt; zweitens die großen Modellgrößen, die es schwierig machen, effizient auf den begrenzten Rechenressourcen eines Roboters zu laufen.
Laut offizieller Angaben kann Gemini Robotics On-Device auf Robotereinheiten mit begrenzter Rechenleistung lokal laufen und zeigt gleichzeitig hervorragende Universalität und Generalisierungsfähigkeit für verschiedene Aufgaben. Da das Modell keine Datennetzwerkverbindung benötigt, hat es deutliche Vorteile für an Latenz empfindliche Anwendungen.
Was noch wichtiger ist, zeigt das Modell in der praktischen Anwendung ein hohes Maß an Universalität und Stabilität. In den Demonstrationsvideos, die von Google DeepMind gezeigt wurden, hat der Roboter in einem zustand ohne Internetverbindung Aufgaben wie „Ein Würfel in eine Verpackung einlegen“ und „Die Reißverschluss eines Beutels öffnen“ abgeschlossen, was mehrere Schritte wie Wahrnehmung, semantisches Verständnis, räumliche Inferenz und hochpräzise Ausführung umfasst.
Die Forscher von DeepMind erklären, dass es die Universalität und Flexibilität von Gemini Robotics aufweist und sofort verschiedene komplexe Zweihandaufgaben bearbeiten kann. Mit nur 50 - 100 Demonstrationen kann es neue Fähigkeiten erlernen. Ein Ingenieur aus dem Bereich der Robotik sagte dem Reporter, dass derzeit die meisten Roboter hunderte oder tausende von Trainingsdurchläufen benötigen, um eine Aufgabe abzuschließen. Dies bedeutet, dass das neue Modell von Google das Anwendungsgebiet und die Flexibilität der Implementierung des Modells erheblich erweitert.
Es ist bemerkenswert, dass, obwohl das Modell ursprünglich für einen bestimmten Roboter trainiert wurde, es auf verschiedene Roboterformen wie Zweiarmroboter und humanoide Roboter generalisieren kann, was sein Anwendungspotenzial erheblich erweitert. In den Demonstrationsvideos kann man sehen, dass auf einem Zweiarmroboter Franka das Modell universelle Befehle ausführen kann, einschließlich der Bearbeitung von bisher nicht gesehenen Objekten und Szenarien, der Ausführung von feinen Aufgaben wie das Falten von Kleidung oder der Montage von Industriebändern, die Präzision und Geschicklichkeit erfordern.
Darüber hinaus hat Google erstmals die Feinabstimmungsfunktion des VLA-Modells geöffnet. Dies bedeutet, dass Ingenieure oder Robotikunternehmen das Modell basierend auf ihren eigenen Daten anpassen und trainieren können, um seine Leistung bei bestimmten Aufgaben, in bestimmten Szenarien oder auf bestimmten Hardwareplattformen zu optimieren und die Anwendungsleistung und praktische Wertigkeit weiter zu verbessern. Gleichzeitig hat Google das Gemini Robotics SDK vorgestellt, um es Entwicklern zu erleichtern, das Modell zu evaluieren und schnell anzupassen. Aus diesen Schritten kann man erkennen, dass Google hofft, eine offene, universelle und einfach zu entwickelnde Plattform für den Bereich der Robotik bereitzustellen, ähnlich wie das Android-System es für die Smartphone-Industrie getan hat.
Der Embodied AI tritt in die „Endgeräte-Ära“ ein
„Dies markiert, dass Roboter endlich in die reale Welt eintreten können“, sagte ein Experte aus dem Bereich des Embodied AI dem Reporter von LanJing Technology. „In der Vergangenheit waren viele Roboter-AI-Systeme aufgrund der begrenzten Bandbreite und Rechenleistung nur in der Lage, Demonstrationen durchzuführen. Der Fortschritt von Google bedeutet, dass ein universelles Modell tatsächlich auf einem Hardware-Endgerät laufen kann und in Zukunft komplexe Operationen auch ohne Internetverbindung ausführen kann.“
Der Embodied AI wurde einst als die Brücke von der AGI zur realen Welt angesehen. Das VLA-Modell mit der Fähigkeit zur lokalen Implementierung ist ein entscheidender Schritt für die Fertigstellung dieser Brücke. Der oben erwähnte Experte sagte dem Reporter von LanJing Technology, dass das lokale VLA-Modell Roboter besser für sensible Szenarien wie Zuhause, in der Medizin und in der Bildung geeignet macht und die Kernherausforderungen wie Datenschutz, Echtzeitreaktion, Sicherheitsstabilität usw. löst.
In den letzten Jahren ist die „Endgeräte-Implementierung“ von großen Sprachmodellen zu einem wichtigen Trend geworden. Vom anfänglichen starken Verbrauch von Cloud-Rechenressourcen bis hin zur Möglichkeit, lokal auf Edge-Geräten wie Smartphones und Tablets zu laufen, hat es ständige Fortschritte bei der Komprimierung und Optimierung des Modells, der Beschleunigung der Inferenz und der Zusammenarbeit mit der Hardware gegeben.
Der gleiche Entwicklungspfad tritt allmählich auch im Bereich des Embodied AI ein. Das VLA-Modell (Visual-Language-Action) als Kernarchitektur des Embodied AI hat im Wesentlichen die Aufgabe, Roboter in die Lage zu versetzen, Aufgaben aus multimodalen Informationen zu verstehen und Handlungen auszuführen. Bisher haben diese Modelle oft starke Cloud-Ressourcen für die Inferenz und Entscheidungsfindung benötigt und waren aufgrund der Beschränkungen der Netzwerkbandbreite, der Rechenleistungskonsumtion und der Echtzeitfähigkeit nicht in der Lage, effizient in komplexen realen Umgebungen zu funktionieren.
Die Veröffentlichung von Gemini Robotics On-Device durch Google bedeutet, dass der Embodied AI in eine Ära ähnlich der der Sprachmodelle, die „Endgeräte-Ära“, eintritt. Es kann nicht nur stabil auf begrenzter Rechenleistung laufen, sondern auch eine gute Universalität und Transferfähigkeit aufweisen und unterstützt das schnelle Lernen und die Anpassung an verschiedene Aufgaben und Roboterformen. Diese Veröffentlichung könnte auch eine Kettenreaktion in der Branche auslösen. Mit der kontinuierlichen Entwicklung der AI-Rechenleistung und der Modellarchitektur geht das „Edge-Intelligence“ von der traditionellen Internet der Dinge (IoT) zu einem fortgeschrittenen Stadium, das durch den Embodied AI repräsentiert wird.
Das lokale VLA-Modell wird zum nächsten Wettlaufgebiet werden. „Derzeit machen die Unterschiede in der Struktur, der Bewegungsfreiheit und der Sensorausstattung verschiedener Roboter es schwierig, eine einheitliche Softwarearchitektur zu realisieren“, sagte ein Investor, der sich auf den Bereich der Robotik konzentriert. „Sobald die Hardwarestandards einheitlicher werden, ähnlich wie die Standards, die durch allgemeine Komponenten wie USB-Schnittstellen, Tastaturen und Bildschirme in der Smartphone-Ökosystem gebildet werden, wird dies die Standardisierung der Algorithmen und die lokale Implementierung stark vorantreiben.“ Er meint, dass die Vision von Google, ein „Robotik-Android-Ökosystem“ aufzubauen, darauf hindeutet, dass ein stärker standardisierter, einfach zu entwickelnder und verbreiteter Embodied AI in Sicht ist.
Dennoch sollten die Herausforderungen bei der praktischen Umsetzung nicht unterschätzt werden. Die Vielfalt und Komplexität der Roboterhardware bleiben ein herausragendes Problem. Die vielfältigen Roboterhardwareprodukte auf dem Markt bedeuten, dass selbst ein starkes universelles Modell für jede spezifische Hardware sorgfältig angepasst und optimiert werden muss. Darüber hinaus können die Kosten für die Datensammlung und -annotierung bei der tatsächlichen Umsetzung in einer großen Anzahl von verschiedenen Anwendungsfällen außerordentlich hoch sein, insbesondere in industriellen oder speziellen Dienstleistungsszenarien, die fachmännisches Wissen und spezielle Geräte erfordern.
Noch wichtiger ist, dass Roboter in einer äußerst komplexen, dynamischen und unvorhersehbaren realen Weltumgebung robust bleiben müssen. Änderungen des Lichts, Objektverdeckungen, unstrukturierte und chaotische Umgebungen sowie feine Unterschiede in der Mensch-Roboter-Interaktion stellen hohe Anforderungen an die Echtzeitwahrnehmung und Entscheidungsfindungsfähigkeit des Modells. Die Sicherstellung der hohen Stabilität und Sicherheit von Robotern in verschiedenen praktischen Szenarien ist eine Herausforderung, die in der zukünftigen Entwicklung des Embodied AI ständig überwunden werden muss.
Dieser Artikel stammt aus dem WeChat-Account „LanJing TMT“. Autor: Wu Jingjing, Redakteur: Chen Ye. Veröffentlicht von 36Kr mit Genehmigung.