Google bringt seine stärkste Robotergedärmtheit hervor und kann die Mülltrennung mit einem Satz bewerkstelligen. Hier kommt die Analyse der Schlüsseltechnologie.
Nach einer Meldung von Zhidx am 26. September hat Google DeepMind heute die Robotermodelle der Serie Gemini Robotics 1.5 vorgestellt. Durch die Chain-of-Thought-Mechanik und die Modellkooperation wird die Autonomie der Roboter weiter verbessert, sodass sie Wahrnehmung, Planung, Denken, Werkzeuggebrauch und Handeln können, um komplexe Mehrschrittaufgaben besser zu lösen. Google bezeichnet dies als einen wichtigen Schritt, um AI-Agenten in die physische Welt zu bringen.
Die beiden Modelle, die Google DeepMind dieses Mal veröffentlicht hat, sind Gemini Robotics 1.5 und Gemini Robotics-ER 1.5. Das erstere ist derzeit das leistungsfähigste VLA-Modell (Visuelles-Sprache-Aktions-Modell) von Google, das visuelle Informationen und Textbefehle in Steuerbefehle für Roboter umwandeln kann und hauptsächlich als Kleinhirn des Roboters fungiert. Dieses Modell denkt vor dem Handeln nach und zeigt den Denkprozess. Es kann auch an verschiedenen Roboter-Körpern lernen, um die Lernleistung zu verbessern.
Gemini Robotics-ER 1.5 hingegen ist bisher das leistungsfähigste VLM-Modell (Visuelles-Sprache-Modell) von Google, das in der Lage ist, über die physische Welt zu schließen und eher wie das Gehirn eines Roboters funktioniert. Es verfügt von Natur aus über die Fähigkeit, digitale Werkzeuge aufzurufen und detaillierte Mehrschrittpläne zu erstellen, um Aufgaben zu erfüllen. Das Modell hat in der Raumverständnis-Benchmark-Testung die Spitzenleistung erreicht. Seine Fähigkeit zur eingebetteten Inferenz übertrifft bei weitem Modelle wie GPT-5 und Gemini 2.5 Flash.
Roboter, die mit diesen beiden neuen Modellen ausgestattet sind, haben dadurch auch die Fähigkeit erworben, komplexe Langzeitaufgaben zu erfüllen. Beispielsweise können Sie einem Roboter die Aufgabe geben, die örtlichen Mülltrennungsvorschriften abzufragen und die Gegenstände auf dem Tisch in den richtigen Mülleimer zu legen. Das Modell kann diese komplexe Anforderung genau verstehen und den Roboter dazu bringen, die Aufgabe zu erfüllen.
Entwickler können das Gemini Robotics-ER 1.5-Modell über die Gemini-API in Google AI Studio nutzen, während das Gemini Robotics 1.5-Modell derzeit nur für einige Partner verfügbar ist. Google hat auch einen technischen Bericht über die Modelle der Serie Gemini Robotics 1.5 veröffentlicht.
Technischer Bericht:
https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf
Modell-Link:
https://deepmind.google/models/gemini-robotics/gemini-robotics/
01. Aufgebaut auf dem Gemini-Basis-Modell, Trainingsdaten stammen von 3 Robotern
Für Roboter erfordern die meisten alltäglichen Aufgaben Kontextinformationen und mehrere Schritte, um erfüllt zu werden. Dies ist für die derzeitigen Roboter eine Herausforderung. Um den Robotern zu helfen, komplexe Mehrschrittaufgaben zu bewältigen, lässt Google DeepMind die beiden Modelle Gemini Robotics 1.5 und Gemini Robotics-ER 1.5 in einem gemeinsamen Agent-Framework zusammenarbeiten.
Das eingebettete Inferenzmodell Gemini Robotics-ER 1.5 koordiniert die Aktivitäten des Roboters wie ein Gehirn. Dieses Modell ist gut darin, in der physischen Umgebung zu planen und logische Entscheidungen zu treffen. Es verfügt auch über fortschrittliche Raumverständnisfähigkeiten, kann mit Benutzern in natürlicher Sprache interagieren, die Erfolgsaussichten und den Fortschritt einer Aufgabe beurteilen und Werkzeuge wie Google-Suche nutzen, um Informationen zu finden, oder beliebige Drittanbieter-Funktionen aufrufen.
Gemini Robotics-ER 1.5 gibt für jeden Schritt natürliche Sprachbefehle, während Gemini Robotics 1.5 seine visuelle und sprachliche Verständnisfähigkeit nutzt, um bestimmte Aktionen direkt auszuführen. Gemini Robotics 1.5 hilft dem Roboter auch, über seine Handlungen nachzudenken, um semantisch komplexe Aufgaben besser zu lösen. Es kann sogar seinen Denkprozess in natürlicher Sprache erklären, um seine Entscheidungen transparenter zu machen.
Beide Modelle basieren auf den Modellen der Gemini-Serie, sodass sie das multimodale Weltwissen, die fortschrittliche Inferenzfähigkeit und die allgemeine Fähigkeit zum Werkzeuggebrauch von Gemini erben können. Anschließend wurden die beiden Modelle mit verschiedenen Datensätzen feinjustiert, um sich auf ihre jeweiligen Rollen zu konzentrieren. Wenn sie kombiniert werden, können sie die Fähigkeit der Roboter verbessern, auf lange Aufgaben und vielfältige Umgebungen zu verallgemeinern.
Der gemeinsame Trainingsdatensatz der Modelle der Serie Gemini Robotics 1.5 besteht aus drei Modalitäten: Bildern, Texten sowie Roboter-Sensor- und Aktionsdaten.
Der für das Training verwendete Roboter-Datensatz ist multi-embodiment und umfasst Tausende von vielfältigen Aufgaben, von Greifen und Manipulieren bis hin zu Zweiarms-Kooperation und der Ausführung alltäglicher komplexer Aufgaben durch humanoide Roboter. Diese Daten wurden von mehreren heterogenen Roboterplattformen gesammelt, einschließlich ALOHA, Bi-arm Franka und dem humanoiden Roboter Apollo.
Die Modelle der Serie Gemini Robotics 1.5 können Aufgaben über verschiedene Körper hinweg direkt ausführen.
Neben dem Roboter-spezifischen Datensatz enthält der Trainingsdatensatz auch öffentliche Texte, Bilder und Videodatensätze aus dem Internet, sodass das Modell nicht nur roboterbezogene Fähigkeiten besitzt, sondern auch die Verallgemeinerungsfähigkeit durch das umfangreiche Weltwissen verbessern kann.
Um die Qualität und Sicherheit des Trainings sicherzustellen, müssen alle Daten vor der Verwendung streng bearbeitet werden. Google DeepMind stellt durch mehrstufige Filterung sicher, dass die Daten den einschlägigen Richtlinien entsprechen und entfernt minderwertige Stichproben und nicht konforme Inhalte.
Jedes Bild im Datensatz ist mit einer ursprünglichen Beschreibung und einer synthetischen Beschreibung versehen. Diese synthetischen Beschreibungen werden von den Modellen Gemini und FlexCap erzeugt, um dem Modell zu helfen, die Details und die kontextuelle Semantik im Bild zu erfassen.
Bei der Trainingsphase wurde die neueste Generation von Hardware verwendet, einschließlich TPU v4, v5p und v6e, und es wurde das JAX- und ML Pathways-Framework kombiniert, um effizientes paralleles Training und plattformübergreifende Erweiterung zu ermöglichen.
02. Durch den Bewegungsübertragungsmechanismus wird die Transkörperlichkeit erreicht, sodass Roboter lernen, "zweimal überlegen, bevor sie handeln"
Als VLA-Modell hat Gemini Robotics 1.5 die Aufgabe, "Befehle zu verstehen und in Aktionen umzuwandeln". Um dieses Ziel zu erreichen, haben die Forscher einen wichtigen Mechanismus in das Training eingeführt: die Bewegungsübertragung (Motion Transfer, MT).
Die Aufgabe von MT besteht darin, die "Barrieren" zwischen verschiedenen Robotern zu brechen. Bei herkömmlichen Methoden muss ein Roboter, wenn er eine bestimmte Fähigkeit erlernt hat, in der Regel zusätzliches Training absolvieren, um diese Fähigkeit auf einen anderen Roboter zu übertragen.
Mit der Unterstützung von MT kann Gemini Robotics 1.5 direkt eine Null-Shoot-Übertragung (Zero-shot Transfer) zwischen verschiedenen Entitäten erreichen. Das heißt, auch wenn das Modell nur auf der ALOHA-Roboterplattform gelernt hat, "eine Schublade zu öffnen", kann es dieselbe Aufgabe auch mit dem humanoiden Roboter Apollo ausführen.
Diese Fähigkeit stammt aus der einheitlichen Modellierung von Bewegung und Physik durch den MT-Mechanismus, der die Daten verschiedener Plattformen ausrichtet und die Gemeinsamkeiten daraus extrahiert.
Darüber hinaus verfügt Gemini Robotics 1.5 auch über die Fähigkeit zum eingebetteten Denken (Embodied Thinking). Bevor es eine Aktion ausführt, erzeugt es eine "Denkspur" in natürlicher Sprache. Diese Spur hilft dem Modell, komplexe Aufgaben in kleinere Schritte zu zerlegen.
Beispielsweise kann das Modell, wenn es den Befehl "Hilf mir, den Tisch aufzuräumen" bekommt, in seiner Überlegung zunächst in kleinere Schritte wie "Tasse aufnehmen", "zum Waschbecken bewegen", "Tasse ablegen" zerlegen. Diese Methode verringert nicht nur die Schwierigkeit der direkten Abbildung von Sprache auf Aktion, sondern macht auch das Modell robuster bei der Ausführung.
Wenn die Tasse während der Bewegung fällt, passt es seine Denkspur sofort an und wechselt zu "Tasse erneut aufnehmen", anstatt einfach die Aufgabe als fehlgeschlagen zu deklarieren.
Im Gegensatz zu Gemini Robotics 1.5 steuert Gemini Robotics-ER 1.5 nicht direkt den Roboter, um konkrete Aktionen auszuführen, sondern konzentriert sich auf das eingebettete Schließen (Embodied Reasoning) und ist für die hochrangige Aufgabenplanung und -entscheidung verantwortlich.
Bei der Ausbildung wurde Gemini Robotics-ER 1.5 speziell auf die Schlüsselkompetenzen optimiert, die für Roboteraufgaben erforderlich sind. Erstens kann es komplexe Aufgaben planen und langfristige Ziele in eine Reihe von sinnvollen Teilaufgaben zerlegen.
Zweitens verfügt es über eine starke räumliche Schlussfolgerungsfähigkeit und kann visuelle und zeitliche Informationen kombinieren, um die relative Position und die Bewegungsbahn von Objekten zu verstehen. Schließlich kann es auch die Fortschritte einer Aufgabe abschätzen, in Echtzeit beurteilen, ob eine Aufgabe erfolgreich ist und wie weit sie fortgeschritten ist, und die nachfolgenden Aktionen entsprechend anpassen.
Einige Aufgaben, die Gemini Robotics-ER 1.5 ausführen kann
Gemini Robotics-ER 1.5 hat in 15 akademischen Benchmark-Tests für eingebettetes Schließen die höchste Gesamtleistung erreicht und übertrifft Modelle wie Gemini Robotics-ER 1.0 und GPT-5.
Es kann die sprachliche Beschreibung genau auf das visuelle Ziel abbilden, wie etwa "Zeige auf die blaue Tasse in der linken unteren Ecke des Tisches", oder auf der Grundlage von Mehrfachansichts-Informationen in Echtzeit beurteilen, ob die Roboteraktion das Ziel erreicht hat. Dies ist für die stabile Ausführung von Langsequenzaufgaben von entscheidender Bedeutung.
Im gesamten System fungiert Gemini Robotics-ER 1.5 als Orchestrator. Es empfängt menschliche Befehle und Umweltfeedback, erstellt einen Gesamtplan und wandelt diesen Plan dann in konkrete Aktionsbefehle um, die von Gemini Robotics 1.5 ausgeführt werden können. Es verfügt auch über die Fähigkeit, externe Werkzeuge (z. B. Internet-Suche) aufzurufen, um sicherzustellen, dass der Roboter auch in komplexen Szenarien flexibel reagieren kann.
Allerdings können Roboter mit höherer Autonomie und Ausführungskapazität auch Sicherheitsrisiken mit sich bringen. Aus diesem Grund hat Google DeepMind neue Sicherheits- und Ausrichtungsverfahren entwickelt, einschließlich eines obersten Sicherheitsbeurteilungsmechanismus und eines tieferen Sicherheitssubsystems (z. B. eines Systems zur Kollisionsvermeidung).
Google DeepMind hat auch eine aktualisierte Version des Robotersicherheits-Benchmark-Tests ASIMOV veröffentlicht. Dies ist ein umfassender Datensatz zur Bewertung und Verbesserung der semantischen Sicherheit, der eine bessere Abdeckung von Randfällen, verbesserte Annotationen, neue Sicherheitsproblemtypen und ein neues Videomodus aufweist.
Im ASIMOV-Benchmark-Test hat Gemini Robotics-ER 1.5 die Spitzenleistung gezeigt. Seine Denkfähigkeit trägt erheblich dazu bei, das Verständnis für semantische Sicherheit zu verbessern und die physischen Sicherheitsbeschränkungen besser einzuhalten.
03. Fazit: Der Konsens über die Transkörperlichkeit von Robotermodellen entsteht allmählich
Im Gegensatz zu herkömmlichen Trainingsmethoden, die auf einer einzigen Datenquelle und einer bestimmten Plattform basieren, ermöglichen die Modelle der Serie Gemini Robotics 1.5 durch multi-embodimente Daten, den Bewegungsübertragungsmechanismus sowie das Paradigma des eingebetteten Denkens und Schließens den Robotern, Fähigkeiten über verschiedene Plattformen hinweg zu übertragen und in komplexen Umgebungen eine an menschliche Anpassungsfähigkeit erinnernde Reaktion zu zeigen. Dadurch wird die Allgemeingültigkeit der Robotermodelle erweitert.
Und dies wird auch zu einem der Ziele vieler Hersteller bei der Entwicklung von Robotermodellen. Kürzlich hat Unitree das Weltmodell für Roboter UnifoLM-WMA-0 open source gemacht. Obwohl es eine andere Architektur hat, verfügt es ebenfalls über die Fähigkeit, sich an verschiedene Roboterentitäten anzupassen. Die Transkörperlichkeit scheint allmählich zum Konsens und zu einer neuen Wettlaufstrecke in der Branche zu werden.