StartseiteArtikel

Der OpenClaw-Roboter hat das Skynet-System ausgelöst und erstmals die Weltgedächtnisfunktion erhalten. Skynet wurde auf GitHub als Open-Source-Projekt veröffentlicht.

新智元2026-03-06 08:26
Eine X hat direkt die Roboter-Szene in Aufruhr versetzt: Der Yushu Humanoid Robot mit OpenClaw beginnt tatsächlich, Raum und Zeit zu verstehen! Zum ersten Mal hat ein Roboter ein "Weltgedächtnis" und kann Menschen, Gegenstände und vergangene Ereignisse erinnern – Kommt Skynet wirklich?

Gerade eben hat eine Nachricht X die globale Open-Source-Robotikszene auf den Kopf gestellt!

Ein Unitree-Humanoidroboter, der mit OpenClaw ausgestattet ist, bewegt sich in einem Raum. Seine Augen bestehen aus einem LiDAR-Laserscanner, einer Stereokamera und einer RGB-Kamera. Die Daten dieser Sensoren werden in ein System eingegeben.

Dann geschah etwas, das bisher kein Roboter je geschafft hat – dieser Unitree-Roboter begann, Raum und Zeit zu verstehen!

Er weiß nicht nur, wo sich Räume, Menschen und Gegenstände befinden, sondern auch, was wann passiert ist.

Das Team nennt diese Fähigkeit Spatial Agent Memory (räumliche Agenten-Memory). Das heißt, ab sofort verfügen Roboter über die Fähigkeit, sich die Welt zu merken!

Und das Projekt, das diese Fähigkeit in die Welt der Roboter gebracht hat, ist das weltweit erfolgreiche Projekt OpenClaw.

Sobald dieses Ergebnis veröffentlicht wurde, wurde es von Peter Steinberger, dem Vater von OpenClaw, geteilt.

Dies markiert einen bahnbrechenden Durchbruch in der Embodied AI: OpenClaw hat offiziell die Fähigkeit erworben, physikalischen Raum und Zeit wahrzunehmen.

Hat Skynet gerade Open-Source gemacht?

Sobald das Projekt veröffentlicht wurde, brach in den Kommentaren ein Sturm der Reaktionen los.

Sie spalteten sich schnell in zwei Lager auf. Eine Gruppe war sehr begeistert: Endlich verfügen Open-Source-Roboter über die Fähigkeit, Raum und Zeit zu wahrnehmen. Dies ist ein enormer Durchbruch in der Edge-AI!

Man kann sagen, dass dies genau der von uns erhoffte Durchbruch in der Embodied AI ist!

Die andere Gruppe begann sich Sorgen zu machen: Wenn Roboter die Fähigkeit zur Raumwahrnehmung erlangen, ist das doch als ob Skynet gerade ein Repository auf GitHub erstellt hätte?

Wenn ein Roboter die Lebensgewohnheiten jeder Person in einem Haushalt genau analysieren kann, weiß, wer am häufigsten in die Küche geht und wann der Müll geleert wird, ist diese "allwissende" Überwachungsfähigkeit in Abwesenheit eines ethischen Rahmens einfach grausam!

Es gab sogar Leute, die sagten, es sei an der Zeit, Militäraufträge anzunehmen.

Und das Aufregendste ist: All dies ist vollständig Open-Source!

Obwohl OpenClaw in diesem Video direkt auf einem Unitree-Roboter installiert wurde, ist dieses System eigentlich vollständig hardwareunabhängig.

Sie können es mit jedem Laserscanner, jeder Stereokamera oder RGB-Kamera integrieren.

Es kann nicht nur auf einem Humanoidroboter wie dem Unitree G1 installiert werden, sondern auch mit den meisten Drohnen und Vierbeinern kombiniert werden.

Im Prinzip könnten wir sogar einen Roboter mit dem Laserscanner eines alten iPhones modifizieren.

Allgemein gesagt: Jede Hardware, die OpenClaw ausführen kann, erhält sofort die Fähigkeit, Raum und Zeit zu wahrnehmen.

Es ist auch nicht von ROS (Robot Operating System) abhängig und unterstützt die Vermeidung von dynamischen Hindernissen und SLAM (Simultaneous Localization and Mapping).

Open-Source-Roboter gehen auf den Skynet-Moment zu

Wenn eines Tages der Roboter in Ihrem Haushalt plötzlich sagt: "Sie haben Ihre Autoschlüssel gestern Abend auf dem Küchentisch liegen gelassen", werden Sie vielleicht nur denken, dass er sehr intelligent ist.

Aber wenn er dann weiter sagt: "Am Montagabend vor einer Woche war ein Fremder in Ihrem Haus", oder sogar: "Sie verbringen durchschnittlich 47 Minuten pro Tag in der Küche", fühlt es sich dann vielleicht schon etwas gruselig an?

Sie werden feststellen: Dieser Roboter beobachtet Sie ständig und merkt sich alles über Sie!

Das Verblüffendste ist, dass dies nicht einfach nur eine Video-Wiedergabe ist, sondern auf einer neuen Fähigkeit beruht: der kombinierten Erinnerung an Raum, Zeit und Semantik.

Der Roboter erstellt nicht nur Bilder aufzeichnen, sondern ein Weltmodell!

Warum waren Roboter früher nicht so intelligent?

Warum wirkten Roboter früher im Vergleich weniger intelligent?

Der Grund ist, dass LLM zunächst nur statische Erinnerungen haben. Sie erinnern sich nur an die Trainingsdaten, aber nicht daran, wo Sie Ihre Schlüssel vor fünf Minuten hingelegt haben.

Dann fehlt ihnen die räumliche Komponente. Sie mögen sich in der Welt der Sprache gut zurechtfinden, aber im physischen Raum verstehen sie es schwer, dass "die Küche links vom Wohnzimmer ist".

Außerdem kann traditionelles RAG nur Texte durchsuchen, während Roboter mit einer riesigen Menge an Videoströmen und Tiefendaten konfrontiert werden.

Diese Hunderte von Stunden an Video, Tiefenkarten, dreidimensionalem Raum, Objektpositionen und zeitlichen Veränderungen bedeuten, dass Roboter mit einem Datenstrom aus der realen Welt konfrontiert werden.

Aber dieses Team unternahm etwas sehr Verrücktes.

SpatialRAG - Eine High-Tech-Lösung, die Roboter mit einem 3D-Cloud-Gehirn ausstattet

Sie setzten ihre Geheimwaffe ein – Spatial Agent Memory (räumliche Agenten-Memory) und SpatialRAG.

Die Kernlogik dieses Systems ist sehr anspruchsvoll: Es kombiniert Videos, Radarerfassungen, Einzelbilder und Odometriedaten, um eine voxelbasierte Welt zu erstellen.

Jeder kleine räumliche Würfel (Voxel) wird mit einem räumlichen Vektor-Einbettung und einem semantischen Label versehen. Dadurch wird das Gehirn des Roboters zu einem mehrdimensionalen Vektor-Speicher, der Objekte, Räume, Geometrie, Zeit, Bilder und Punktwolken enthält.

Man kann sagen, dass dies das Erinnerungsskelett ist, das Roboter benötigen, um die physische Welt zu verstehen.

Mit diesem System kann der Roboter in mehreren Dimensionen wie Objekt, Raum, Semantik, Geometrie, Zeit, Bild und Punktwolke suchen und hat somit erstmals eine vollständige räumliche Erinnerung.

Jetzt kann er daher auch solche tiefgründigen Fragen beantworten.

Zum Beispiel: "Wo habe ich meine Schlüssel verloren?", "Wer war am Montag vor einer Woche in meinem Haus?", "Wer verbringt die meiste Zeit in der Küche?", "Wann soll der Müll geleert werden?"

Netizen-Skepsis: Kommt Skynet, oder geht es nur um einen alten Herrn auf einem Spaziergang?

Sobald dieses Ergebnis bekannt wurde, brach in den Kommentaren ein Sturm der Diskussionen los.

Eine Gruppe von Kritikern bezweifelte, dass dies nicht mit einer unzumutbaren Latenz verbunden sei. Sollte man da einen 100-jährigen Großvater schicken, um mir bei der Hausarbeit zu helfen?

Aber das Technikteam widersprach schnell: "Nein, es handelt sich nicht um eine Echtzeitsteuerung mit 20 Hz, sondern um einen hochschwelligen Intelligenzkoodinator. Es ist für die Leitung zuständig, und die Ausführung der Bewegungen kann asynchron erfolgen, ohne jegliche Verzögerungen!"

Andere fragten: Warum wird kein spezialisiertes ML-Modell verwendet, sondern stattdessen LLM und Cron, eine Art Rube-Goldberg-Maschine?

Die Entwickler waren sehr offen: "Es ist zwar einfach, LLM auf Hardware zu installieren, aber es ist am schwierigsten, ihm einen kontinuierlichen physischen Kontext darüber beizubringen, was wann und wo passiert ist."

OpenClaw bietet nicht nur eine