60 Jahre Roboter-„Gehirne“-Evolution: Fünf Generationen Basis-Modell-Evolution und drei proprietäre Schulen

Wie weit entfernt sind die Roboter, die tatsächlich Arbeit verrichten?

Im Jahr 2025 waren die Demos, die von Robotikunternehmen veröffentlicht wurden, ziemlich phantastisch:

Zunächst mal Figure AI. Im Oktober veröffentlichte es den dritten Roboter-Generationsprototyp. Dieser kann verschiedene Hausarbeiten ausführen, und seine Demo war auch sehr beeindruckend. Doch es gab viele Zweifel an der Erfolgsquote seiner Aufgaben, und das Gesichtsdesign verursachte ziemlich stark die "Unheimlichkeitseffekt".

Eine andere Prominentenfirma, 1X, veröffentlichte Ende Oktober eine Demo. Das gesamte Gesichtsdesign dieses Roboters war viel süßer und es scheint, dass man diesen Roboter lieber zu Hause haben würde. Doch der Roboter namens Neo hängt von Fernsteuerung ab und wurde als "scheinintelligent" kritisiert. Außerdem gibt es diverse Datenschutzprobleme.

Zur gleichen Zeit veröffentlichte auch Tesla diverse Demo-Updates für seinen Roboter, darunter eine sehr flüssige Lauf-Demo im Dezember. Doch es wurde offensichtlich, dass das Serienproduktionsprojekt 2025 enorme Herausforderungen hatte, sodass das Unternehmen die Produktion einstellen und die Hardware neu entwerfen musste.

In unserer Roboterserie haben wir bereits über die dexteren Hände und die Jahresrückschau der Embodied AI-Branche im Jahr 2025 gesprochen. In diesem Artikel wollen wir uns nun eingehend mit einer Kerntechnologie dieser Branche befassen: dem Robotergrundmodell. Wir versuchen, folgende Frage zu beantworten: Warum wurde 2025 plötzlich zum "Jahr Null" des Robotergrundmodells?

Wir haben auch einige führende Robotikunternehmen und Labors im Silicon Valley besucht. Der Artikel über das Grundmodell wird in zwei Teile unterteilt: "Closed-Source" und "Open-Source". Wir werden systematisch aufzeigen, wie das "Gehirn" heutiger gängiger Roboter trainiert wird, wie es in die reale Welt eingebunden wird und welche technischen und geschäftlichen Logiken hinter den verschiedenen Ansätzen stehen. Wir wollen Ihnen zeigen, wie das Gehirn von Robotern im Zeitalter der Large Language Models tatsächlich entsteht. In diesem Artikel wollen wir uns zunächst mit dem momentanen Favoriten am Kapitalmarkt befassen: dem Closed-Source-System.

01 Das Robotergrundmodell: Die Paradigmenrevolution von den 60er Jahren bis 2025

Wenn man das Robotergrundmodell in einem Satz erklären möchte, ist die einfachste Analogie: Wenn GPT ein "redendes Gehirn" ist, dann ist das Robotergrundmodell ein "handlungsfähiges Gehirn".

Aber dieses "handlungsfähige Gehirn" hat die Menschen ganze 60 Jahre lang erforscht, um es zu entwickeln. Lassen Sie uns zunächst die vier Hauptrobotikparadigmen vor der Entstehung der Large Language Models Revue passieren.

Chapter 1.1 Die erste Generation: Programmierbare Roboter (1960er - 1990er Jahre)

1961 begann der erste industrielle Roboter der Welt, Unimate, in einer Fabrik der General Motors zu "arbeiten". Seine Aufgabe war einfach: Er griff glühende Metallteile von der Fertigungsstraße und legte sie auf eine andere Fertigungsstraße.

Aus heutiger Sicht war er ziemlich "dumm", denn er arbeitete vollständig auf der Grundlage von Programmierung. Die Ingenieure sagten ihm mit Code:

Schritt 1: Bewege den Arm 30 Zentimeter nach links.

Schritt 2: Schließe die Greifzange.

Schritt 3: Hebe den Arm 50 Zentimeter an.

Schritt 4: Drehe den Arm um 90 Grad nach rechts.

Schritt 5: Öffne die Greifzange.

Klingt ziemlich dumm, oder? Doch damals war dies bereits ein revolutionärer Durchbruch. Die Probleme dieser Methode sind offensichtlich: Keine Fehlertoleranz, keine Flexibilität.

Wenn sich die Position des Teils um 1 Zentimeter verschob, konnte der Roboter es nicht greifen. Wenn man ein Teil anderer Größe einsetzte, musste man den Code neu schreiben. Ganz zu schweigen von der Bewältigung von unvorhergesehenen Situationen - wenn das Teil auf den Boden fiel, wusste der Roboter überhaupt nicht, was er tun sollte.

Aber in der hochgradig kontrollierten Umgebung einer Fabrik funktionierte diese Methode jahrzehntelang. Bis heute verwenden viele Schweißroboter in Automobilfabriken noch diese "programmierbare" Logik.

Chapter 1.2 Die zweite Generation: SLAM-basierte Methoden (1990er - 2010er Jahre)

In den 90er Jahren erkannten die Robotiker, dass die reine Programmierung nicht ausreicht. Roboter müssen die Umgebung "wahrnehmen" können. Daher entstanden Technologien wie SLAM (Simultaneous Localization and Mapping) und Bewegungsplanung.

Der Kerngedanke hierbei ist: Nutze zunächst Sensoren, um die Umgebung zu "sehen", erstelle eine 3D-Karte und plane dann die Route. Abschließend führe die Aktion aus. Die erfolgreichste Anwendung dieser Methode ist der Staubsaugerroboter.

Der beliebte Roomba arbeitet genau so: Er scannt den Raum mit einem Lidar-Sensor, erstellt eine Karte, plant eine Route, die alle Bereiche abdeckt und bewegt sich dann entlang dieser Route. Wenn er auf ein Hindernis stößt, umgeht er es.

Diese Methode war bei "Navigations"-Aufgaben sehr erfolgreich: Frühe Fahrerlose Autos, Drohnen und Logistikroboter arbeiteten im Wesentlichen nach diesem Muster. Doch bei "Manipulations"-Aufgaben war sie nicht geeignet, denn diese Aufgaben sind zu komplex. Wenn man beispielsweise einem Roboter sagen würde, ein Handtuch zu falten, wären dies die vier Schritte der herkömmlichen Methode:

1. Erkenne mit der Kamera die vier Ecken des Handtuchs.

2. Berechne die 3D-Koordinaten jeder Ecke.

3. Plane die Bewegungsbahn des Arms.

4. Führe das Greifen, Falten und Ablegen aus.

Klingt ziemlich vernünftig, aber in der Praxis gibt es überall Stolpersteine: Das Handtuch könnte zerknittert liegen, sodass man die "vier Ecken" nicht erkennen kann. Das Handtuch ist flexibel, wenn man es greift, verformt es sich, und die 3D-Koordinaten sind sofort ungültig. Jeder Schritt kann fehlschlagen, und wenn einer fehlschlägt, bricht der gesamte Prozess zusammen.

2010 absolvierte ein Forschungsunternehmen in Berkeley, Kalifornien, ein Experiment: Sie ließen einen Roboter Handtücher falten, und zwar mit dieser "Wahrnehmung - Planung - Ausführung"-Methode. Im Durchschnitt brauchte der Roboter 24 Minuten, um ein Handtuch zu falten.

Und das Falten von Handtüchern ist auch im Zeitalter der KI ein sehr wichtiges Problem, das von Grundmodellen gelöst werden muss, um Roboter zu befähigen, diese Aufgabe zu meistern.

Chapter 1.3 Die dritte Generation: Verhaltenskopie (Mitte der 2010er Jahre)

Da die manuelle Gestaltung von Regeln nicht funktionierte, fragte man sich, ob man Roboter nicht direkt lernen lassen könnte, wie Menschen etwas tun. Dies ist der Ansatz der Verhaltenskopie (Behavior Cloning), auch als Imitationslernen (Imitation Learning) bekannt.

Nehmen wir wieder das Falten von Handtüchern als Beispiel. Ein Roboter würde beim Imitationslernen folgendermaßen vorgehen: Lassen Sie Menschen mehrmals demonstrieren, wie man ein Handtuch falt. Notieren Sie die visuelle Eingabe und die motorische Ausgabe jedes Frames. Trainieren Sie ein neuronales Netzwerk, um die Abbildung von Eingabe zu Ausgabe zu lernen. Wenn der Roboter ein Handtuch sieht, gibt er direkt an, welche Aktion er ausführen soll.

2015 brachte ein Team von Google Brain mit dieser Methode einen Roboter dazu, verschiedene Gegenstände zu greifen. Sie sammelten Hunderttausende von Greifdaten und trainierten ein neuronales Netzwerk, was den Fortschritt beim "visuellen - motorischen" Lernen bei Greifaufgaben von Robotern vorantrieb.

Dies war ein riesiger Fortschritt! Zum ersten Mal musste der Roboter keine manuell geschriebenen Regeln befolgen, sondern konnte anhand von Daten lernen.

Aber diese Methode hat einen fatalen Nachteil: Die Dateneffizienz ist zu niedrig. Sie benötigt Hunderttausende von Greifdaten für das Training, und dies ist nur für die Aktion "Greifen". Wenn man "Handtuch falten" lernen möchte, reichen möglicherweise 1 Million Demos nicht aus.

Und das Schlimmste ist, dass diese Methode schlecht generalisierbar ist. Ein Modell, das mit Daten eines Roboters des Typs A trainiert wurde, funktioniert auf einem Roboter des Typs B praktisch nicht.

Chapter 1.4 Die vierte Generation: Reinforcement Learning (Spät 2010er Jahre)

2016 besiegte AlphaGo Lee Sedol und bewies die Macht des Reinforcement Learnings. Die Robotikwissenschaftler fragten sich: Können wir auch Roboter damit trainieren, selbst herauszufinden, wie sie eine Aufgabe erfüllen können?

Der Kerngedanke des Reinforcement Learnings ist: Der Roboter muss nicht von Menschen demonstriert werden, sondern kann selbst versuchen. Wenn er etwas richtig macht, bekommt er eine Belohnung, wenn er etwas falsch macht, bekommt er eine Strafe. So lernt der Roboter langsam, wie er die maximale Belohnung erzielen kann.

Damals begannen die Roboter von Boston Dynamics, Reinforcement Learning in ihre Bewegungskontrollsysteme einzubauen, sodass sie auf verschiedenen komplexen Geländen laufen, springen und Rückwärtsrollen konnten.

Aber das Problem beim Reinforcement Learning ist, dass es zu langsam ist. AlphaGo musste in einer Simulationsumgebung Tausende von Millionen von Go-Partien gegen sich selbst spielen, um zu lernen. Doch bei Robotermanipulationsaufgaben ist es schwierig, in einer Simulationsumgebung zu trainieren, da die Umgebung zu komplex ist, sehr schwer einzustellen ist und sich von der realen physischen Welt erheblich unterscheidet, was zu ungenauen Simulationen führt.

Aber wenn man es mit einem echten Roboter testen möchte, ist es zu langsam, zu teuer und zu gefährlich. Stellen Sie sich vor, Sie lassen einen Roboter Handtücher falten lernen. Er muss möglicherweise Millionen von Malen versuchen, und in den meisten Fällen wird er es nicht richtig machen: Er greift ins Leere, wirft das Handtuch auf den Boden, reißt es oder verklemmt seinen Arm. Wie lange würde es dauern, bis er es richtig macht?

Und es gibt ein noch grundlegendes Problem beim Reinforcement Learning: Der Roboter kennt keine "Alltagswissen". Menschen wissen, dass ein Handtuch weich ist, gefaltet werden kann und eine gewisse Reibung hat. Aber ein Roboter, der mit Reinforcement Learning trainiert wird, muss diese Alltagswissen durch unzählige Fehlversuche "entdecken", was sehr ineffizient ist.

Chapter 1.5 Die fünfte Generation: VLA-Modelle (Mitte der 2020er Jahre - heute)

Die Entstehung der Large Language Models hat alles verändert. 2022 tauchte ChatGPT auf, und die Menschen stellten fest, dass Large Language Models eine Menge "Alltagswissen" über die menschliche Welt enthalten: Sie wissen, was ein Handtuch ist, was falten bedeutet und in welcher Reihenfolge man etwas tun sollte. Sie haben Fähigkeiten zur logischen Schlussfolgerung, Planung und Generalisierung.

Die erste Reaktion in der Branche war, ob man Large Language Models und Roboter kombinieren könnte. So wurde das VLA (Vision - Language - Action) - Modell geboren. Das Revolutionäre am VLA - Modell ist, dass es drei Dinge in einem neuronalen Netzwerk vereinigt:

Vision (Sehen): Es sieht die aktuelle Szene. Language (Sprache): Es versteht das Aufgabenziel und das Alltagswissen. Action (Aktion): Es gibt konkrete Steuerbefeh

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

60 Jahre Evolution der Roboter-„Gehirne“: Fünf Generationen der Evolution von Basis-Modellen und drei proprietäre Schulen

01 Das Robotergrundmodell: Die Paradigmenrevolution von den 60er Jahren bis 2025