Google präsentiert Edge-VLA-Modell: Roboterversion von Android erscheint, lernt neue Bewegungen nach nur 50 Demonstrationen

Google Gemini erschüttert die Robotikszene. Das stärkste visuell-aktive Modell tritt in die physische Welt ein und kann mit Sachen umgehen, die es noch nie zuvor gesehen hat.

Real-World-Modell + Roboter-Android? Google stellt das leistungsstärkste Geräte-Robotermodell vor.

Nach einer Meldung von Zhidx am 25. Juni. In der Nacht von heute stellte Google sein erstes Geräte-Robotermodell Gemini Robotics On-Device vor und brachte damit die multimodalen Inferenz- und Real-World-Verständnisfähigkeiten von Gemini 2.0 noch weiter in die physische Welt.

Im März dieses Jahres stellte Google sein leistungsstärkstes VLA (Visual Language Action)-Modell Gemini Robotics vor. Das heute vorgestellte Gemini Robotics On-Device ist eine optimierte Version von Gemini Robotics und auch sein erstes VLA-Modell, das für Feinabstimmung geeignet ist. Es kann auf lokalen Robotergeräten laufen und verfügt über eine starke allgemeine Flexibilität und Aufgabenverallgemeinerungsfähigkeit.

Wie im Video gezeigt wird, bringt Gemini Robotics On-Device KI in Roboter ein und kann sofort aus dem Karton heraus verschiedene komplexe Zwei-Hände-Aufgaben bewältigen, wie z. B. das Falten von Kleidung oder das Öffnen von Beuteln.

Zur gleichen Zeit stellte Google auch das Gemini Robotics SDK vor, um Entwicklern zu helfen, die Leistung von Gemini Robotics auf Geräten zu bewerten, einschließlich Tests im MuJoCo-Physiksimulator. Entwickler benötigen nur 50 - 100 Demonstrationen, um die Modellbewertung abzuschließen und den Roboter neue Fähigkeiten beizubringen.

Sobald das Modell veröffentlicht wurde, sahen fast 300.000 Benutzer auf der sozialen Plattform X zu. Ein Benutzer sagte: "Diese eingebauten Gerätemodelle bringen Gemini Robotics sicher auf den Weg, zum 'Android der Roboterwelt' zu werden. Letztendlich müssen OEM-Hersteller (Integratoren) sich nur auf die Entwicklung der besten Roboterhardware konzentrieren, während Gemini nur als 'Gehirn' fungieren muss."

01. Speziell für feinfühlige Manipulationen entwickelt, kann Roboter Beutel öffnen und Kleidung falten

Gemini Robotics On-Device ist ein Basis-Modell, das für Zweiachs-Roboter entwickelt wurde und die Rechenressourcenanforderungen so gering wie möglich hält. Es baut auf den Aufgabenverallgemeinerungs- und Flexibilitätsfunktionen von Gemini Robotics auf und verfügt über folgende Eigenschaften:

1. Speziell für schnelle Experimente bei feinfühligen Manipulationen entwickelt.

2. Kann durch Feinabstimmung an neue Aufgaben angepasst werden, um die Leistung zu verbessern.

3. Optimiert für lokale Ausführung und geringe Latenz bei der Inferenz.

Gemini Robotics On-Device hat in einer Vielzahl von Test-Szenarien eine starke visuelle, semantische und Verhaltensverallgemeinerung erreicht. Es kann natürliche Sprachbefehle befolgen und kann feinfühlige Aufgaben wie das Öffnen von Beuteln oder das Falten von Kleidung reibungslos ausführen. All dies wird direkt am Roboter durchgeführt.

In der Bewertung von Google hat Gemini Robotics On-Device bei vollständiger lokaler Ausführung eine starke Verallgemeinerungsleistung gezeigt. Die folgende Abbildung zeigt die Ergebnisse des Vergleichs mit Googles Flaggschiffmodell Gemini Robotics und dem bisher besten Gerätemodell. Gemini Robotics On-Device hat in den drei Tests Visual Gen, Semantic Gen und Action Gen die höchsten Punkte erzielt.

Bei herausfordernderen verteilten Aufgaben und komplexen Mehrschritt-Befehlen hat das Gemini Robotics On-Device-Modell auch bessere Ergebnisse erzielt als andere Geräte-Endlösungen. Die folgende Abbildung zeigt die Ergebnisse der Bewertung der Befehlsverfolgungsleistung von Gemini Robotics On-Device. Im Vergleich zum Flaggschiffmodell Gemini Robotics und dem bisher besten Gerätemodell hat es höhere Punkte erzielt.

Für weitere Details können Sie den im März dieses Jahres von Google veröffentlichten Technischen Bericht über Gemini Robotics "Gemini Robotics: Bringing AI into the Physical World (Gemini Robotics: KI in die physische Welt bringen)" lesen.

Berichtsadresse: https://arxiv.org/pdf/2503.20020

02. Erstes VLA-Modell für Feinabstimmung, geeignet für verschiedene Formen wie Roboterarme und humanoide Roboter

Gemini Robotics On-Device ist Googles erstes VLA-Modell, das für Feinabstimmung geeignet ist.

Obwohl viele Aufgaben direkt ausgeführt werden können, können Entwickler auch wählen, das Modell anzupassen, um eine bessere Leistung zu erzielen. Gemini Robotics On-Device kann sich schnell an neue Aufgaben anpassen und benötigt nur 50 - 100 Demonstrationen. Dies zeigt deutlich, dass dieses Geräte-Endmodell seine Grundkenntnisse auf neue Aufgaben übertragen kann.

Google hat gezeigt, wie Gemini Robotics On-Device bei Aufgaben, die die Feinabstimmung auf ein neues Modell erfordern, die derzeit besten Geräte-End-VLA-Lösungen übertrifft. Sie haben das Modell in sieben verschiedenen feinfühligen Manipulationsaufgaben unterschiedlicher Schwierigkeit getestet, darunter das Öffnen der Reißverschlüsse einer Lunchbox, das Malen auf Karten und das Ausgießen von Salatsoße.

Die folgende Abbildung zeigt die Aufgabenanpassungsleistung von Gemini Robotics On-Device, die fast 100 Beispiele enthält.

Google hat Gemini Robotics On-Device weiter angepasst, um es für verschiedene Roboter geeignet zu machen. Obwohl es das Modell nur für den ALOHA-Roboter trainiert hat, konnten sie es auch auf den Zweiachs-Franka FR3-Roboter und den humanoiden Roboter Apollo von Apptronik anpassen.

Am Zweiachs-Franka kann das Modell allgemeine Befehle ausführen, einschließlich der Bearbeitung von bisher nicht gesehenen Objekten und Szenarien, das Ausführen feinfühliger Aufgaben wie das Falten von Kleidung oder das Ausführen von industriellen Riemenmontageaufgaben, die Präzision und Feingefühl erfordern.

Am humanoiden Roboter Apollo hat Google das Modell so angepasst, dass es sich an eine völlig andere Form anpasst. Das gleiche allgemeine Modell kann natürliche Sprachbefehle befolgen und verschiedene Objekte, einschließlich bisher nicht gesehener Objekte, auf eine allgemeine Weise manipulieren.

Google entwickelt alle Gemini Robotics-Modelle gemäß seinen KI-Prinzipien und wendet eine ganzheitliche Sicherheitsmethode an, die semantische und physikalische Sicherheit umfasst.

03. Fazit: Große Modelle beschleunigen die Implementierung in die physische Welt

Gemini Robotics On-Device markiert einen wichtigen Schritt in Bezug auf die Zugänglichkeit und Anpassbarkeit von leistungsstarken Robotermodellen und wird wahrscheinlich Roboterentwicklern helfen, wichtige Latenz- und Verbindungsprobleme zu lösen.

Es ist erwähnenswert, dass das Gemini Robotics SDK Entwicklern ermöglicht, das Modell nach ihren eigenen Bedürfnissen anzupassen und somit die Innovation zu beschleunigen. In Zukunft können wir erwarten, dass mehr Roboterentwickler diese neuen Tools nutzen, um Roboter mit innovativen Anwendungen zu entwickeln.

Dieser Artikel stammt aus dem WeChat-Account „Zhidx“ (ID: zhidxcom). Autor: Li Shuiqing, Redakteur: Xinyuan. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Google stellt ein Edge-VLA-Modell vor, die Roboterversion von Android ist erschienen, und der Roboter kann neue Bewegungen bereits nach 50 Demonstrationen lernen.

01. Speziell für feinfühlige Manipulationen entwickelt, kann Roboter Beutel öffnen und Kleidung falten

02. Erstes VLA-Modell für Feinabstimmung, geeignet für verschiedene Formen wie Roboterarme und humanoide Roboter

03. Fazit: Große Modelle beschleunigen die Implementierung in die physische Welt