StartseiteArtikel

Funktioniert deine "Lobster" noch gut? Professor Lin Yankai der Nationalen Volksversammlung: OpenClaw ist wie der frühe Linux, der echte Wettbewerb hat erst begonnen.

机器之心2026-03-30 17:01
Hör auf, OpenClaw zu vergöttern. Vielleicht haben wir alle den wirklichen Kern der Agenten falsch verstanden.

In den letzten Monaten war es im Bereich der Künstlichen Intelligenz kaum möglich, einen Namen zu umgehen - OpenClaw. Dieses Projekt hat in kürzester Zeit einen enormen Aufmerksamkeitsboom erlebt: Hunderttausende von Sternmarkierungen, ein erstaunlicher Token-Verbrauch und die rasche Nachfolge fast aller großen Unternehmen. Auf den ersten Blick scheint es ein weiteres phänomenales KI-Produkt zu sein. Doch wenn man genauer hinsieht, stellt sich die Frage auf, was die Entstehung von OpenClaw tatsächlich bedeutet. Handelt es sich um einen echten technologischen Durchbruch oder um ein Signal für tiefere Veränderungen?

Kürzlich fand im Tsinghua Science Park eine Innovationskonferenz des Peking Key Laboratory for Edge AI über Agenten statt. Acht Gäste aus Wissenschaft und Industrie sprachen und diskutierten das technologische Konzept hinter OpenClaw sowie die zukünftigen Entwicklungstrends aus verschiedenen Perspektiven, wie unterer Technologieebenen, Technologiewandel, Kollaboration zwischen Edge und Cloud, Sicherheitstechnologien und Agentenmanagementpraktiken.

Dr. Lin Yankai, Dozent an der Renmin-Universität China, hielt auf der Konferenz einen Vortrag mit dem Titel "Die Entwicklungstrends der Agententechnologie aus der Perspektive von OpenClaw" und beantwortete drei grundlegende Fragen: Erstens, wie weit hat sich die aktuelle Agententechnologie entwickelt? Zweitens, wo liegen die eigentlichen Kernprobleme? Drittens, wie wird sich dieser technologische Weg in den nächsten ein bis drei Jahren entwickeln?

Er hat die Technologie Schicht für Schicht zerlegt, von der Systemarchitektur, der Interaktions- und Ausführungsmethode bis hin zur Basis-Modellierung und der Kollaboration mehrerer Agenten, um den wahren Zustand der Technologie wiederherzustellen. Er kam zu einem etwas "gegen-intuitiven" Urteil - OpenClaw ist kein Durchbruch in der unteren Algorithmenebene, sondern eine engineeringmäßige Integration, die es den großen Modellen ermöglicht, die "Verwendbarkeitsgrenze" zu überschreiten und die Agenten tatsächlich einsetzbar zu machen. Es ähnelt eher einem frühen Prototyp eines Agenten-Betriebssystems, das die Nutzungsparadigmen der KI neu definiert, indem es Modelle, Werkzeuge und Interaktionsmethoden einheitlich gestaltet. Sein Erfolg ist im Wesentlichen das Ergebnis einer Resonanz zwischen der Modellfähigkeit und dem Engineering-System zu einem bestimmten Zeitpunkt.

Zur gleichen Zeit hat Lin Yankai ein systematisches Verständnis der Kernprobleme dargelegt und darauf hingewiesen, dass OpenClaw auch die Kernprobleme der aktuellen Agenten in Bezug auf Zuverlässigkeit, Langzeitaufgabenausführung, Token-Kosten, Gedächtnissystem und autonome Evolution aufzeigt.

Schließlich hat er festgestellt, dass der Schlüssel zur zukünftigen Entwicklung von Agenten nicht nur in der Stärkung der Modelle liegt, sondern auch in der Kollaboration zwischen Edge und Cloud, der Standardisierung von Protokollen und der Implementierung von Multi-Agenten-Systemen, um von punktuellen Fähigkeiten zu systemweiten Fähigkeiten zu gelangen.

Hier ist der vollständige Text des Vortrags:

Heute möchte ich mit Ihnen anhand des kürzlich sehr beliebten Agentenprojekts OpenClaw über die Frage diskutieren, wie weit die aktuelle Agententechnologie entwickelt ist, was ihre Kernprobleme sind und in welche Richtung wir uns weiterentwickeln werden. Ich werde versuchen, weniger über Produkte und mehr über Technologie zu sprechen und einige meiner Überlegungen teilen.

Zunächst einige Daten: Nach der Sensation um OpenClaw erhielt es innerhalb von 24 Stunden 9.000 Sternmarkierungen und überstieg binnen zwei Monaten die 270.000 Sternmarkierungen, sogar Linux, und wurde damit das Projekt mit den meisten Sternmarkierungen in der Geschichte. Hier ist ein Screenshot des Token-Verbrauchs von OpenClaw auf OpenRouter: Innerhalb einer Woche wurden 4,73 T Token verbraucht, mehr als alle anderen Projekte zusammen. Gleichzeitig haben fast alle großen chinesischen Unternehmen diesem Projekt gefolgt. Heute hat auch WeChat OpenClaw integriert, was sehr, sehr beliebt ist. Viele Städte haben auch politische Maßnahmen in Bezug auf OpenClaw ergriffen.

Ich möchte heute nicht darüber diskutieren, wie beliebt OpenClaw ist, sondern über drei technische Fragen: Warum hat es zu diesem Zeitpunkt so stark aufgekratzt? Gibt es technisch gesehen wirkliche Innovationen? Welche Probleme müssen wir von seiner Perspektive aus lösen?

Die eigentliche Ursache für den Erfolg von OpenClaw ist die "Verwendbarkeitsrevolution"

Seit der Gründung des OpenClaw-Projekts, bis es 200.000 Sternmarkierungen erreichte und der Gründer OpenAI beitrat, vergingen nur drei oder vier Monate. Von seiner Entstehung bis heute ist es erst ein Monat her. Warum ist es so beliebt? Aus meiner persönlichen Perspektive hat es die Nutzungsschwelle für die Benutzer enorm gesenkt. Im Gegensatz zu herkömmlichen Chatbots ist es ein KI-Agent, der Aufgaben autonom ausführen kann. Obwohl es bereits ähnliche Projekte wie AutoGPT und XAgent nach der Entstehung der großen Modelle gab, hat OpenClaw es endlich den normalen Menschen ermöglicht, diese Technologie einfach zu nutzen.

Hier möchte ich eine kontroverse These aufstellen: Aus der Perspektive der KI- und großen Modelltechnologie hat OpenClaw eigentlich keine großen Innovationen, sondern nutzt bereits vorhandene Technologien. Es trainiert keine Modelle, verbessert keine Inference-Algorithmen und entwickelt keine unteren Werkzeuglernmethoden. Was es tut, ist die Integration von IM-Kommunikationsplattformen, die lokale Deployment-Architektur, die schichtweise Speicherung und die Standardisierung des Gateways. Dies sind alle ausgezeichnete Software-Engineering-Entwürfe, aber es gibt keinen Kernalgorithmus-Durchbruch.

Wir können sehen, dass die Basis-Modelle wie Claude Opus 4.6 oder GPT-5.4, die von OpenClaw integriert werden, die eigentlichen Aufgaben ausführen und uns ein gutes Erlebnis bieten. Ich denke, dass OpenClaw für die großen Modelle eine ähnliche Bedeutung hat wie der Browser für das Internet - es schafft keine Inhalte selbst, sondern definiert die Interaktionsweise der Benutzer neu und ermöglicht es auch Nicht-Technikern, die großen Modelle in der Arbeit effektiv einzusetzen.

Da OpenClaw die unteren Algorithmen nicht stark verändert, ist es ein ausgezeichnetes Beispiel für die technische Analyse. Sein Erfolg kann uns zeigen, welche Technologien bereits relativ reif sind (z. B. die Werkzeugaufrufe und die Ausführungskapazität der Basis-Modelle), und gleichzeitig kann es die fehlenden Technologien aufzeigen (z. B. die Zuverlässigkeit des Systems, die Transferfähigkeit des Gedächtnismodells und die Unreife der Kollaboration zwischen Edge und Cloud).

Heute möchte ich anhand von OpenClaw versuchen, ein systematisches Bild der aktuellen Technologiestatus und der Kernprobleme der Agententechnologie auf verschiedenen Ebenen zu zeichnen, und ich möchte auch einige Forschungsrichtungen vorschlagen, die ich für sinnvoll halte.

Schauen wir uns einige statistische Daten an. Dies ist die Länge der Aufgaben, die ein Agent autonom ausführen kann, wenn die Erfolgsrate 50 % beträgt, seit der Entstehung der großen Modelle. Nach der Entstehung der großen Modelle hat sich die Verdopplungszeit auf etwa sieben Monate verkürzt, und in den letzten ein oder zwei Jahren hat sich diese Zeit auf etwa vier Monate beschleunigt. Das Diagramm auf der rechten Seite zeigt Claude Opus 4.6 und GPT-5.4, die im Vergleich zu ihren Vorgängern in Bezug auf die Code-Fähigkeit und die Werkzeugaufruf-Fähigkeit einen qualitativen Sprung gemacht haben.

OpenClaw ist ein Prototyp eines Agenten-Betriebssystems

Die Gesamttechnologie-Architektur von OpenClaw ist sehr einfach und klar. Von der unteren Systemsteuerung über das Agenten-Zyklussystem bis hin zur oberen Standardisierung und der Informationsflussverwaltung, und schließlich zur Integration der verschiedenen Kanäle für die Benutzer. Warum ist es so gut zu nutzen? Das liegt an seinen sechs Schlüsseltechnologie-Merkmalen - dies habe ich nicht selbst herausgefunden, sondern in einem anderen Bericht gehört, und es wurde sehr gut zusammengefasst: Soziale Integration, lokale Deployment, Geräteintegration, Modell-Ökosystem, Skill-Ökosystem. Diese Merkmale machen es OpenClaw möglich, eine starke Kompatibilität mit den unteren Modellen, verschiedenen Benutzern, verschiedenen Geräten und komplexen Aufgaben zu haben.

Von der Software-Engineering-Perspektive gibt es drei sehr wichtige Entwürfe in OpenClaw.

Der erste ist das Gateway-System. Es hat eine dreischichtige Architektur und ermöglicht es, dass verschiedene externe Geräte und IM-Software über das Gateway einheitlich an die Agenten-Ebene geroutet und geplant werden können. Dadurch muss der Agent selbst nicht darauf achten, über welche Plattform der Benutzer kommuniziert oder welches externe Hardwaregerät verwendet wird, sondern kann sich auf die Anbindung der unteren API und der oberen Schnittstelle konzentrieren.

Der zweite ist der schichtweise Gedächtnis-Mechanismus.

OpenClaw hat einen sehr einfachen, aber sehr praktischen Gedächtnis-Mechanismus. Ähnliche Entwürfe haben wir auch in AutoGPT oder anderen Agenten-Simulationssystemen gesehen.

Die unterste Ebene (L1) ist der Kontext der aktuellen Konversation, also das Kurzzeitgedächtnis. Wenn das Kontext-Fenster fast voll ist, werden die Nachrichten automatisch komprimiert, und die Lebensdauer endet mit dem Ende der Konversation.

Die zweite Ebene (L2) ist ähnlich wie ein täglicher Notizblock oder ein Tagebuch. Es liest automatisch die Logs der letzten zwei Tage und hat einen Abfallzyklus von 30 Tagen.

Darüber hinaus ist die Langzeitgedächtnis-Ebene (L3), die die Informationen aus der unteren Ebene zusammenfasst und dauerhaft Personeninformationen, Präferenzen und Erfahrungen extrahiert.

Die oberste Ebene (L4) ist die semantische intelligente Rückrufsystem basierend auf Dateien, deren Kernziel die Individualisierung ist. Durch diese auf den großen Modellen aufbauende Agenten-Gedächtnis-Architektur kann das System ein "immer besseres Verständnis" des Benutzers entwickeln und die Effektivität verbessern.

Der dritte Aspekt ist die Kompatibilität mit dem Skill-Ökosystem von Claude. Man kann sehen, dass es eine dreischichtige Ladung gibt. Die erste Schicht hilft dem Modell über Namen und Beschreibungen, die Funktionen der Skills schnell zu verstehen und eine schnelle Suche nach Skills zu ermöglichen. Die zweite Schicht ist der detaillierte Arbeitsablauf, der es dem Modell ermöglicht, zu wissen, wie es verschiedene Aufgaben behandeln soll, z. B. der ungefähre Arbeitsablauf für ein PPT oder andere Dinge. Diese Skill-Fähigkeiten ermöglichen es dem Agenten, sehr spezialisierte Aufgaben auszuführen. Die letzte Schicht sind einige zugehörige Ressourcen.

Die oben genannten drei Punkte sind die Teile, die ich als am wertvollsten im Engineering-Sinn bei der Analyse von OpenClaw betrachte.

Nach der Erläuterung der gesamten Architektur von OpenClaw möchte ich aus meiner persönlichen Perspektive eine Vermutung oder ein Urteil äußern: Ich denke, dass OpenClaw nicht als eine Software oder eine Anwendung betrachtet werden sollte, sondern als ein früher Prototyp eines zukünftigen Agenten-Betriebssystems.

Ich habe einen sehr interessanten Artikel gelesen, in dem erwähnt wurde, dass Linux es ermöglicht, dass alle Hardware- und Software-Systeme unter demselben Standard funktionieren. Ähnlich versucht OpenClaw derzeit, alle KI-Modelle, Nachrichtenplattformen und alle Werkzeuge unter demselben Standard laufen zu lassen, was genau die Aufgabe eines Betriebssystems ist.

Es