Humanoidroboter beginnen auch mit der Hummerzucht

Schreibt OpenClaw die Wettbewerbslogik für humanoide Roboter neu?

Ob OpenClaw die Arbeitsweise von Angestellten revolutioniert hat, ist unklar, aber es scheint, dass die Embodied Intelligence bald revolutioniert werden könnte.

In letzter Zeit kursieren viele solche Videos im Internet. Einige Netizens, die mit dem "Cyberschreben von Garnelen" nicht zufrieden sind, haben OpenClaw mit einer Kamera und einem Roboterarm verbunden. Nachdem sie verbunden wurden, stellten die Leute fest, dass OpenClaw nicht nur auf dem Computer arbeitsfähig ist, sondern auch in der Realität ein guter Arbeiter ist.

Beispielsweise haben einige Netizens OpenClaw mit einem Computer, einem Roboterarm und einer Kamera ausgestattet. Sie haben kein neues Programm für diese Aufgabe geschrieben und kein eigenes Modell trainiert, sondern nur zu OpenClaw gesagt: "Sortiere diese Autoteile."

OpenClaw hat diese Teile sortiert.

Wie stark hat dieses Ereignis die Embodied Intelligence beeinträchtigt?

So sagen wir mal, vor weniger als einem Jahr waren diese Fähigkeiten bei Humanoidroboterunternehmen noch ein Grund für eine eigene Pressekonferenz und Millionen von Dollar an Werbung weltweit.

Aber jetzt hat OpenClaw dieselben Fähigkeiten leicht erreicht, obwohl es nicht speziell für die Embodied Intelligence entwickelt wurde.

Also klingt dieses Ereignis irgendwie absurd.

Was bringt OpenClaw also den Humanoidrobotern? Ist ein spezielles Embodied Large Model noch sinnvoll, wenn OpenClaw so stark ist? Haben die Robotunternehmen ihre Arbeit vergeblich gemacht? Warum kann OpenClaw so leicht das erreichen, was die Robotunternehmen jahrelang schwer gearbeitet haben?

Und wer schwimmt nackt, wenn die Flut zurückgeht?

Wenn man "Garnelen züchtet" und es auf Roboter übertragen wird

Ich erinnere mich noch, dass ungefähr Anfang April letzten Jahres (2025) ein führendes chinesisches Humanoidroboterunternehmen in Peking eine Pressekonferenz zu einer Humanoidroboter-Entwicklungsplattform abgehalten hat.

Damals war der Kernpunkt dieser Plattform, dass sie mit bloßen Sprachbefehlen in industriellen Szenarien die Sortierung von verstreuten Teilen durchführen kann, mit flüssigen Bewegungen und einer geringen Fehlerrate.

Wie sieht es aus? Klingt diese Beschreibung nicht bekannt? Sie ist fast identisch mit dem, was OpenClaw heute kann.

Der Unterschied besteht nur darin, dass diese Plattform speziell für Roboter entwickelt wurde. Sie hat mehrere Dutzend Szenarien aufgeteilt, Agenten trainiert und sie dann durch Verhaltenspfadplanung miteinander verknüpft. Dies beinhaltet eine Menge Arbeit.

Damals war das Slogan dieser Firma für diese Plattform: "Der wichtigste Baustein für die Entwicklung von Humanoidrobotern von der Show zur Arbeit, von dem Labor in die Fabrik." Jetzt scheint OpenClaw ähnliche Fähigkeiten ebenfalls leicht zu erreichen, aber offensichtlich hat OpenClaw diese Arbeit nicht durchgeführt.

So ist es wie wenn du mit einem Freund bergauf gehst. Du hast dich sorgfältig vorbereitet, früh losgestartet und viel Zeit investiert. Als du schließlich pusten und keuchen kommst, findest du deinen Freund schon auf dem Gipfel sitzen, der mit dem Helikopter hingeflogen ist.

Genauer betrachtet zeigt OpenClaw in vielen Szenarien eine starke Generalisierungsfähigkeit, Entscheidungs- und Selbstentwicklungskapazität.

Beispielsweise in einem Experiment gab es eine noch lebensnähere Testung. Der Mitarbeiter sagte zu dem Roboterarm: "Heute ist der Laternenfesttag. Mach mir einige Süßweintörtchen."

Der Roboterarm dachte zunächst über die Aufgabe nach und begann dann mit der Ausführung: Er goss Suppe in den Topf, legte die Törtchen hinein und wartete, bis das Wasser kochte.

Zwischenzeitlich fragte der Mitarbeiter: "Kann man noch Zucker hinzufügen?"

Der Roboterarm fragte zurück: "Brauner Zucker oder Lorbeerzucker?"

Nachdem er die Antwort "Brauner Zucker" erhalten hatte, goss er den Zucker in den Topf.

Darüber hinaus gibt es noch verschiedene andere Experimente. Beispielsweise haben einige Entwickler OpenClaw mit einem industriellen Roboterarm verbunden und ihn angewiesen, Aufgaben wie Greifen oder Transportieren gemäß natürlicher Sprachbefehle auszuführen. Das System generiert sogar automatisch Python-Skripte zur Steuerung des Roboterarms.

Außer den Roboterarmen tauchen auch Vierbeinerroboter schnell in verschiedenen "Garnelenzucht"-Experimenten auf.

In einigen Videos, die auf Reddit und X kursieren, haben Entwickler OpenClaw mit einem Roboterhund verbunden und ihn in der Umgebung autonom patrouillieren lassen.

In der Vergangenheit mussten diese Roboter normalerweise ferngesteuert werden oder gemäß einem vorab geplanten Pfad agieren. Aber in diesen Experimenten gibt es keine Steuerung und keinen vorab geplanten Pfad. Der Roboterhund beurteilt und plant selbst gemäß der von der Kamera erfassten Umgebung, beispielsweise um Hindernisse zu umgehen oder bei neuen Situationen den Pfad neu zu planen.

Und wenn diese Experimente auf Humanoidroboter angewendet werden, wird es noch interessanter.

Beispielsweise hat jemand in einer Open-Source-Community eine Unitree-Roboter-Fähigkeit für OpenClaw veröffentlicht. Mit dieser Integration können Entwickler direkt über eine Instant-Messaging-Software Roboter wie den Unitree G1, sogar den größeren H1, sowie Vierbeinerroboter wie den GO1 und GO2 steuern.

Der gesamte Prozess ist viel einfacher, als man denkt. Entwickler müssen keine komplexe grafische Benutzeroberfläche öffnen und keine SDK manuell aufrufen. Sie müssen nur in einem Chatfenster eine Nachricht senden:

"Gehe einen Meter vorwärts."

"Drehe dich 45 Grad nach links."

Der Roboter führt dann die entsprechende Aktion aus.

Diese Steuerung ist sogar bidirektional. OpenClaw kann Umgebungsbilder von der Stereokamera des Roboters erhalten und Screenshots direkt in das Chatfenster senden, damit Entwickler den aktuellen Zustand jederzeit einsehen können. Wenn man auch noch ein Pfadplanungsmodul hinzufügt, kann das System automatisch Pfade planen und Hindernisse vermeiden.

Ebenso gibt es in diesem gesamten Prozess keine vordefinierten Skripte und keine vorab geplanten Bewegungswege.

Entwickler geben nur ein Ziel an, und der Rest wird der KI überlassen. Sie beurteilt und plant selbst.

Kann eine kleine Garnel die Humanoidroboterwelt erschüttern?

Aus verschiedenen Demonstrationsvideos haben wir die erstaunlichen Fähigkeiten von OpenClaw in Kombination mit anderen Large Models gesehen.

Früher hätten diese Fähigkeiten für viele Humanoidroboterunternehmen stolze Errungenschaften sein können, aber heute sind sie eher durchschnittlich.

Deshalb stellt sich die Frage: Hat die Fähigkeit, die die Roboterindustrie jahrelang mit Datensammlung, Modelltraining und Systementwicklung erreicht hat, noch einen Wert?

Die Antwort ist natürlich nein.

Um dies zu verstehen, müssen wir von Anfang an beginnen. Abgesehen vom Roboter selbst kann das Entscheidungssystem grob in vier Ebenen aufgeteilt werden, von oben nach unten:

Entscheidungsebene (Gehirn): Verständnis von Zielen und Aufgabezerlegung;

Wahrnehmungs/Repräsentationsebene: Erkennung der Umgebung, Ziele und Raumzustände;

Verhaltensorganisationsebene: Zerlegung von Aufgaben in Fähigkeiten und Handlungssequenzen;

Steuerungsebene (Kleinhirn): Bahnplanung, Servosteuerung, Hindernisvermeidung und sichere Ausführung.

Im Rahmen dieses Systems ist OpenClaw hauptsächlich für den Aufruf, die Organisation und die Verbindung der ersten Ebenen zuständig. Wie der Roboter schließlich bewegt wird und ob die Bewegungen stabil umgesetzt werden können, hängt immer noch von der unteren Steuerungsschicht, der Kinematikberechnung und der Ausführungskette ab.

Deshalb macht OpenClaw nicht, dass der Roboter plötzlich lernen kann, sich zu bewegen. Es ist eher ein oberes Scheduling-System, das menschliche Befehle in eine Reihe von aufrufbaren Fähigkeiten übersetzt.

Es gibt eigentlich zwei Highlights, die hier beachtenswert sind.

Erstens hat OpenClaw die Art und Weise, wie Roboter diese Fähigkeiten erwerben, verändert.

In der Vergangenheit waren viele Fähigkeiten zwar möglich, aber es musste oft eine große Menge an Datensammlung, spezielles Training und komplexe Regelwerke für eine einzelne Aufgabe investiert werden.

Jetzt kann OpenClaw direkt auf bereits ausgereifte Multimodal-Modelle, Toolsysteme und modulare Ausführungsketten zurückgreifen, um viele Fähigkeiten, die zuvor separat entwickelt und trainiert werden mussten, in direkt aufrufbare und schnell kombinierbare Fähigkeiten zu verwandeln.

Das Ergebnis ist, dass bei derselben Aufgabe wie Greifen, Suchen oder Inspektion die Entwicklungseffizienz höher, der Fehlertestzyklus kürzer und die Gesamtkosten niedriger sind.

Zweitens gibt OpenClaw den Robotern eine Fähigkeit, die in der Vergangenheit selten wirklich etabliert wurde: die kontinuierliche Erinnerung an die reale Welt.

Traditionelle Roboter arbeiten hauptsächlich "in der Gegenwart". Sie reagieren auf das, was sie sehen, und ihre Verständnis der Umgebung bleibt meist auf den Moment beschränkt, wenn die Aufgabe beendet ist. Viele Systeme können natürlich auch Karten erstellen, Positionen bestimmen und den Zustand der Aufgabe speichern, aber sie organisieren normalerweise nicht "Orte, Objekte, Ereignisse und Zeit" kontinuierlich in eine einheitliche, jederzeit aufrufbare Erinnerungsstruktur.

Jetzt beginnt OpenClaw, die wichtigen Objekte, Orte, Ereignisse und Zeitpunkte, die der Roboter wahrnimmt, in eine abrufbare raumzeitliche semantische Erinnerung zu organisieren.

Das bedeutet, dass der Roboter nicht nur Befehle ausführt, sondern auch kontinuierlich Kontextinformationen sammelt.

Wann eine Person in den Raum kommt, wo ein Objekt platziert wird und wann eine Handlung stattfindet, können alle als Grundlage für die nachfolgende Suche, Beurteilung und Aktion dienen.

Natürlich bedeutet dies nicht, dass er bereits ein vollständiges Weltverständnis wie ein Mensch hat, aber es zeigt zumindest, dass er beginnt, eine strukturierte Erinnerungsfähigkeit für die reale Welt zu entwickeln.

Die Bedeutung dieser Sache liegt darin, dass die Grenzen der Roboterfähigkeiten sich von "die Durchführung einer Aufgabe" zu "der kontinuierlichen Erfassung einer Umgebung" erweitern. (In derselben oder ähnlichen Umgebung verbessert die kontinuierliche Kontextinformation die Kontinuität der Aufgabe und die lokale Stabilität, aber dies bedeutet nicht, dass das System bereits eine allgemeine Generalisierungsfähigkeit erlangt hat.)

Natürlich kann OpenClaw dies nicht aus dem Nichts leisten. Hinter diesem liegen zwei wichtige Gründe.

Der erste Grund ist, dass sich in den letzten Jahren die untere Architektur der Roboter selbst verändert hat.

In der Vergangenheit waren viele Robotersysteme eher wie abgeschlossene Schornsteine: Die Wahrnehmung, die Planung und die Steuerung waren jeweils getrennte Systeme, die miteinander komplex verbunden waren und eine hohe Entwicklungsbarriere hatten. Viele Fähigkeiten existierten zwar bereits, aber es war schwierig, sie flexibel aufzurufen.

Jetzt werden die Robotersysteme immer modularer und standardisierter. Kameras, Roboterarme, Greifmodule, Pfadplanung und untere Steuerungsschnittstellen werden allmählich zu austauschbaren und kombinierbaren Fähigkeitseinheiten.

OpenClaw scheint so stark zu sein, nicht weil es aus dem Nichts die unteren Roboterfähigkeiten erschafft, sondern weil es auf einem bereits zunehmend standardisierten Ausführungssystem aufbauen kann und diese Fähigkeiten neu organisiert.

Der zweite Grund ist, dass die Multimodal-Large Models schnell die zuvor verteilten Fähigkeiten integrieren.

In der Vergangenheit musste ein Humanoidroboter, wenn er eine Aufgabe ausführen wollte, oft viele Probleme separat lösen: Textverständnis, Spracherkennung, Bilderkennung, Videoverständnis, Zielerkennung, Raumbeurteilung, Aufgabezerlegung. Oft mussten verschiedene Module diese Aufgaben jeweils separat erledigen.

Jetzt können die Multimodal-Large Models gleichzeitig verschiedene Informationen wie Text, Bilder, Sprache und Videos verarbeiten und diese Informationen in demselben Kontext zusammen verstehen. Das bedeutet, dass die Wahrnehmungs- und Verständnisfähigkeiten, die die Roboter in der Vergangenheit separat trainieren und integrieren mussten, allmählich von allgemeineren Basis-Modellen absorbiert werden.

Dadurch wird die Entwicklungsbarriere für die obere Intelligenz der Roboter deutlich gesenkt. Und das ist die Bedeutung von OpenClaw. Es erfindet diese Fähigkeiten nicht neu, sondern integriert diese stärkeren allgemeinen Fähigkeiten effizienter in das Robotersystem.

Ist ein Embodied Large Model noch sinnvoll?

An dieser Stelle stellt sich natürlich die wichtigere Frage: Da die Basis-Modelle immer stärker werden, ist es noch sinnvoll, ein spezielles Embodied Intelligence Large Model zu entwickeln?

Bevorher hatten viele Humanoidroboterunternehmen hochkarätig angekündigt, ein eigenes Embodied Large Model zu entwickeln und es als die wichtigste strategische Kernkomponente ihrer Firma betrachtet. Es schien, als ob wer das Embodied Model beherrscht, die Zukunft der Roboter in der Hand hätte.

Aber jetzt scheint, dass die allgemeinen Basis-Modelle schnell die Fähigkeiten des Verständnisses, der Wahrnehmung und der Aufgabenorganisation auffüllen. Ein Teil der oberen Fähigkeiten, die die Roboterunternehmen jahrelang aufgebaut haben, wird schnell von größeren Basis-Modell-Systemen generalisiert.

Die Antwort ist: Ja, und es ist immer noch wichtig.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Humanoidroboter fangen auch an, Hummer zu züchten.

Wenn man "Garnelen züchtet" und es auf Roboter übertragen wird

Kann eine kleine Garnel die Humanoidroboterwelt erschüttern?

Ist ein Embodied Large Model noch sinnvoll?