StartseiteArtikel

Worauf gründet es eigentlich, dass Herems OpenClaw in den Schatten stellt?

36氪的朋友们2026-04-15 15:52
Mit seinen selbstentwickelnden Fähigkeiten und dem aktiven Gedächtnissystem übertrifft der Hermes Agent OpenClaw und führt die neue Richtung der Open-Source-Agents an.

Im April 2026 bekam OpenClaw (allgemein als "Hummer" bekannt), der erst seit zwei Monaten in Mode war, seinen Herausforderer. Hermes Agent belegte mehrere Wochen lang die Spitze der GitHub-Trending-Liste und sammelte stolze 22.000 Sterne ein.

Wie beliebt war es? Selbst Anthropic kopierte es. Am 10. April 2026 kritisierte Teknium, der Gründer von Nous Research, dass Anthropic die Funktion von Hermes kopiere, die Aufgaben automatisch als erledigt zu markieren und den Benutzer aktiv zu benachrichtigen. Die Community sah es einhellig, dass Hermes dank seines selbstevolvierenden Agenten, des automatischen Gedächtnismanagements und des Benutzermodellsystems den Vorgänger OpenClaw technisch überholte und die Richtung für Open-Source-Agenten neu definierte.

Wenn man jedoch diese grandiosen Erzählungen beiseite lässt und die beiden Systeme vergleicht, wird man feststellen, dass die Gemeinsamkeiten in den Funktionen weitaus größer sind als die Unterschiede.

Beispielsweise haben beide eine Zeitplanung. Hermes unterstützt menschenlesbare Formate und Standard-Cron-Ausdrücke. Jede Aufgabe läuft in einer isolierten Sitzung (Session). OpenClaw unterstützt ebenfalls die drei Zeitplanungstypen at, every und cron. Die Aufgaben werden direkt in eine lokale JSON-Datei geschrieben und gehen auch beim Neustart nicht verloren.

Beispielsweise haben beide auch die Möglichkeit, Aufgaben an Sub-Agenten zu delegieren. Hermes' delegate_task unterstützt einzelne Aufgaben und bis zu drei parallele Sub-Aufgaben. Die Sub-Agentenumgebung ist vollständig isoliert, und am Ende wird nur eine Zusammenfassung zurückgegeben. OpenClaws Sub-Agent-Mechanismus unterstützt ebenfalls die isolierte Ausführung im Hintergrund und die Rückgabe der Ergebnisse und kann sogar die Verschachtelungstiefe konfigurieren.

Beide verfügen auch über Browserautomatisierung, TTS (Text-to-Speech), visuelle Fähigkeiten, Bildgenerierung und Sprachinteraktion. Bei den Gateways haben beide auch die Nachrichtenintegration von über 20 Plattformen wie Telegram, Discord, Slack, WhatsApp und Signal.

Wenn man die Funktionsliste abhakt, wird man feststellen, dass die Funktionen beider Systeme fast vollständig übereinstimmen. Die sogenannte "absolute Überlegenheit" in der Funktionsliste existiert gar nicht.

Die Frage ist also: Warum ist Hermes so beliebt, wenn die Funktionen beider Systeme gleich sind? Wie viel von dem, was in der Community als "Selbstevolution", "automatisches Gedächtnis" und "Benutzermodell" gepriesen wird, sind wirklich fundamentale strukturelle Unterschiede?

01 Die sich selbst entwickelnde Fähigkeit (Skill)

Wenn man die Standardkonfigurationen beider Systeme durchsucht, findet man nur einen einzigen signifikanten Unterschied: Hermes hat einen geschlossenen Kreis der Selbstevolution bei den Fähigkeiten (Skills) implementiert.

Ein Skill ist eine Art Arbeitsablaufeinheit für Agenten. Im Grunde handelt es sich um eine Markdown-Datei, die dem Agenten sagt, wie er bei einer bestimmten Aufgabe vorgehen soll, welche Tools er nutzen soll und wie er bei einem Fehler reagieren soll.

Hermes teilt den Lebenszyklus der Fähigkeiten in zwei Abschnitte auf: die stille Generierung zur Laufzeit und die offlinemäßige, radikale Evolution.

Zuerst die Generierung. Wenn man den Agenten arbeiten lässt und er während der Arbeit mehr als fünf Mal ein Tool nutzt, einen Fehler begeht und ihn selbst korrigiert oder wenn der Benutzer die Ausgabe des Agenten korrigiert, wird eine vordefinierte Regel im Hauptrepository ausgelöst. Der Agent packt den funktionierenden Arbeitsablauf in eine Datei und speichert sie als lokale SKILL-Datei. Dieser Prozess passiert stumm, und oft bemerkt man gar nicht, dass der Agent sich eine neue Fähigkeit erlernt hat.

Wenn der Agent die nächste ähnliche Aufgabe bekommt, durchsucht er automatisch den Index. Der Ladevorgang erfolgt in vier Schritten, ähnlich wie beim Suchen in einer Bibliothek. Zuerst schaut er auf die Katalogkarten (Tier 0) und fügt nur den Namen und die Beschreibung in die Systemhinweise ein, was ungefähr 3.000 Token einnimmt. Wenn die Richtung stimmt, holt er die vollständigen Inhalte Schritt für Schritt ab.

Was Hermes jedoch wirklich von anderen unterscheidet, ist der zweite Schritt: die Evolution.

Hermes hat ein offlines betriebenes Massenevolutionsalgorithmus-System eingebaut und ein eigenes Repository (hermes-agent-self-evolution) erstellt. Der Algorithmus basiert auf dem DSPy-Framework und einem Kernalgorithmus namens GEPA.

GEPA steht für Genetic-Pareto Prompt Evolution. Dieses System wurde nicht von Hermes entwickelt, sondern stammt aus einer ICLR 2026 Oral-Publikation von Lakshya Agrawal und anderen mit dem Titel "Reflektive Prompt-Evolution kann die Verstärkungslernen übertreffen".

Die meisten Forscher im Bereich der Fähigkeitsevolution gehen derzeit den Weg des RL (Verstärkungslernens). Frameworks wie SkillRL oder SAGE tragen sogar RL in ihrem Namen und versuchen, die Fähigkeitsbibliothek durch Gradientenaktualisierung zu verbessern. GEPA geht jedoch einen entgegengesetzten Weg und verzichtet bewusst auf das Verstärkungslernen. Die GEPA-Publikation beweist, dass man auch ohne Gradientenaktualisierung dank der Reflexionsfähigkeit von Large Language Modellen und einem Evolutionsalgorithmus nicht nur besser als RL performen kann, sondern auch die Effizienz der Stichprobenausnutzung erhöhen kann.

Wie funktioniert es? Dieser Algorithmus basiert auf drei grundlegenden Säulen.

Erstens die reflektive Mutation. Es handelt sich nicht um eine zufällige Mutation. Das Large Language Modell liest die Ausführungsverläufe (Traces), reflektiert, warum es etwas richtig oder falsch gemacht hat und welchen Teil des Prompts es ändern soll.

Zweitens die Pareto-Front-Selektion. Nachdem eine Reihe mutierter Kandidatenfähigkeiten generiert wurden, werden nicht nur diejenigen mit der höchsten Durchschnittsbewertung behalten. Wenn ein Kandidat auf mindestens einer Bewertungsstichprobe am besten abschneidet, wird er beibehalten. Dies dient dazu, die Vielfalt und Robustheit der Fähigkeitsentwicklung zu gewährleisten.

Drittens die natürliche Sprache als Mutationssignal. Traditionelles RL nutzt numerische Belohnungen (Rewards), um die Parameter zu aktualisieren. Numerische Signale sind jedoch zu grob. Wenn man bei einem Versuch 0,6 Punkte erzielt, weiß man nicht, was richtig oder falsch war. GEPA nutzt bei jeder Mutation konkrete natürliche Sprachfeedback, wie "In diesem Schritt wurden die Randbedingungen nicht überprüft" oder "Man sollte zuerst die Konfiguration lesen und dann den Cache schreiben". Large Language Modelle können diese Feedback verstehen und daraus die nächsten Varianten ableiten, was effektiver ist als die Interpretation einer Gleitkommazahl.

Der Arbeitsablauf sieht wie folgt aus: Das System liest regelmäßig die vorhandenen SKILL-Dateien, erstellt aus den historischen Sitzungen eine Bewertungsmenge (oder generiert sie selbst). Dann setzt GEPA ein, liest die Ausführungsverläufe, reflektiert, gibt Vorschläge, generiert Kandidatenvarianten, führt eine Bewertung durch und wählt schließlich mit dem Pareto-Algorithmus die besten aus.

Nachdem dieser offlinen Evolutionskreislauf abgeschlossen ist und die optimierten Fähigkeiten erstellt wurden, werden die ursprünglichen Dateien nicht direkt überschrieben. Stattdessen wird ein PR (Pull Request) erstellt, und erst wenn der menschliche Prüfer zustimmt, wird die evolvierte Fähigkeit aktiv. Das System führt niemals direkt einen Commit durch.

Dies durchbricht die mythische Vorstellung in der Community, dass der Benutzer überhaupt nicht eingreifen muss. Hermes' Position ist klar: Die Generierung von Fähigkeiten kann vollautomatisch und stumm erfolgen, aber die Evolution von Fähigkeiten muss von einem Menschen überprüft werden.

Schauen wir uns nun OpenClaw an. Es hat auch ein Skill-System, aber das Problem ist, dass man bei jedem Schritt aktiv eingreifen muss. Man muss manuell Dateien erstellen, installieren und autorisieren. Erst wenn alle drei Bedingungen erfüllt sind, wird die Fähigkeit aktiv. Wenn man eine neue Fähigkeit erstellt, muss man auch den Gateway-Prozess neu starten, damit das System die neue Fähigkeit erkennt.

Außerdem ist das Laden von Fähigkeiten bei OpenClaw sehr einfach und grob. Es wird keine Aufgabenanpassung vorgenommen. Alle konfigurierten Fähigkeiten werden in den Kontext eingefügt, es sei denn, man fügt manuell ein Deaktivierungslabel hinzu.

Beide Systeme haben Fähigkeiten. Der eigentliche Unterschied liegt darin, wer den Startknopf drückt. Hermes sagt "Lass es mich machen", OpenClaw sagt "Mach es selbst".

02 Wer merkt sich für wen die Dinge?

Wenn die Fähigkeiten erklären, warum Hermes "je mehr man es nutzt, desto schneller wird", dann ist die andere, in der Community gepriesene Eigenschaft "es versteht, wer ich bin" auf das Gedächtnissystem zurückzuführen.

Die drei größten Open-Source-Agenten (Claude Code, OpenClaw, Hermes) haben alle ein automatisches Gedächtnis. Wenn man jedoch genauer hinsieht, wird man feststellen, dass die Zielgruppen, die Auslösemechanismen und die Lebensdauer des Gedächtnisses völlig unterschiedlich sind.

Zuerst Claude Code. Sein automatisches Gedächtnis (auto-memory) ist standardmäßig aktiviert. Während der Arbeit speichert es automatisch Build-Befehle, Debugging-Erfahrungen, Architekturnotizen und sogar den Code-Style. Alle 24 Stunden führt es ein Auto Dream durch, um veraltete oder widersprüchliche Informationen zu löschen. Dies klingt sehr intelligent, aber dieses System hat eine sehr strenge Projektisolierung.

Die Grenze liegt am Git-Root (Projektwurzelverzeichnis). Die Erfahrungen, die man in Projekt A macht, können nicht in Projekt B übertragen werden. Es merkt sich keine persönlichen Präferenzen und interessiert sich nicht dafür, wer hinter dem Bildschirm sitzt. Es denkt nur darüber nach, wie das Projekt funktioniert.

OpenClaw hat ein eher langfristiges Gedächtnissystem. Bei jedem neuen Gespräch lädt es acht untergeordnete Dateien, darunter MEMORY.md und USER.md, in sein Gedächtnis. Diese Dateien werden nicht nur zwischen Projekten geteilt, sondern auch automatisch geschrieben.

Wie werden die Daten geschrieben? Der Schreibmechanismus ist sehr passiv und eher eine Art Sicherheitsnetz. Wenn der Kontext (Token) des Gesprächs fast voll ist und das System eine Kompression durchführen will, führt der Agent einen stillen Durchlauf (silent turn) durch. In diesem Durchlauf notiert er die wichtigen Punkte des Gesprächs in die Tagesdatei und schreibt die Präferenzen des Benutzers in die langfristig gespeicherten Dateien MEMORY.md oder USER.md.

Deshalb merkt man, wenn man OpenClaw nach einer langen Pause öffnet, dass es "immer noch weiß, wer man ist". Dies liegt an diesem passiv aufgebauten langfristigen Netzwerk, in dem die Präferenzen in den Startdateien gespeichert sind. Dies kann das Gefühl erwecken, dass man diese KI "züchten" kann. Im Grunde ist es jedoch eher ein Überlebensinstinkt, um Daten zu sichern, bevor das Gedächtnis voll ist. Wenn man keine externe semantische Vektordatenbank verwendet, kann OpenClaw nur nach Schlüsselwörtern suchen.

Hermes hat in dieser Hinsicht ein anderes Konzept. Vor Version v0.7 war Honcho der einzige fest eingebettete langfristige Gedächtnis-Backend in Hermes, es gab keine anderen Optionen.

Honcho, das früher die Standardoption war, ist sehr klug konzipiert. Das Gedächtnissystem der meisten Agenten (einschließlich Hermes' Standardgedächtnis) ist im Grunde ein passiver Aufzeichner. Es teilt die Gespräche in Vektoren auf und speichert sie in einer Datenbank. Wenn es ähnliche Themen findet, sucht es die Datenbank mithilfe der Kosinus-Ähnlichkeit der Embeddings.

Honcho geht einen anderen Weg. Es ist ein "AI-natives" Gedächtnis-Backend, das auf asynchronem dialektischem Denken (Dialectic reasoning) und tiefgehender Entitätsmodellierung basiert.

Nach einem Gespräch mit dem Agenten beginnt Honcho erst seine Arbeit. Es startet im Hintergrund zusätzliche Modellaufrufe, analysiert die Gesprächsgeschichte, extrahiert die Konzepte (Entities) aus den Worten des Benutzers, die zugrunde liegenden Präferenzen und bringt widersprüchliche Aussagen in Einklang. Es wandelt die losen Gedanken des Benutzers in strukturierte "Einsichten (Insights)" um.

Das klingt sehr fortschrittlich, aber es verbraucht viele Token und kann wichtige Details übersehen. Deshalb ist es sicherer, es als Plugin zu verwenden.

Aber selbst ohne Honcho ist Hermes beim Schreiben in das Gedächtnis viel aktiver als OpenClaw. Hermes hat einen Nudge-Mechanismus, der ungefähr alle 15 Gesprächsrunden ausgelöst wird, noch bevor das Gedächtnis voll ist. Dies ist eine Art Reflexionsanweisung, die das System dem Agenten aufzwingt, um die Gespräche zu überprüfen und herauszufinden, welche Gewohnheiten des Benutzers bemerkenswert sind. Diese häufigen aktiven Reflexionen ermöglichen es Hermes, in gleicher Zeit viel mehr Informationen in die dauerhaften Dateien zu schreiben.

Außerdem ist Hermes beim Wiederherstellen des Gedächtnisses effizienter. Es hat in seiner Standardarchitektur die Fähigkeit zur Volltextsuche mit SQLite FTS5 eingebaut. Man muss keine Vektordatenbank konfigurieren. Wenn der Agent alte Gespräche aufrufen will, kann er direkt in der großen Datenbank der Gesprächsgeschichte suchen.

Wenn man die drei Systeme vergleicht, wird die Evolutionslinie klar. OpenClaw hat ein passiv ausgelöstes langfristiges Gedächtnissystem. Claude Code kann aktiv aufzeichnen und organisieren, aber es interessiert sich nur für die Aufgabe, nicht für den Benutzer. Hermes hat einen sehr aktiven Auslösemechanismus, die Gedächtnis-Plugins können beliebig gewechselt werden, die Daten werden global geteilt, und es hat standardmäßig eine leistungsstarke Suchfunktion für alle historischen Gespräche.

Das macht sich auch im täglichen Gebrauch bemerkbar. OpenClaw erinnert sich erst kurz vor dem Kollaps an den Benutzer. Hermes hingegen beobachtet ständig die Gedanken des Benutzers und kann jederzeit auf die alten Gespräche zurückgreifen.

03 Die Komplexität verstecken

Ob es sich um die Selbstgenerierung von Fähigkeiten oder das häufige aktive Schreiben in das Gedächtnis handelt, hinter alledem steckt dasselbe Prinzip: Hermes trifft die Entscheidungen, die eigentlich der Benutzer treffen müsste.

Aber die Komplexität eines Systems ist immer gleich.

Wenn man nicht selbst eingreifen muss, bedeutet das nicht, dass die Entscheidungen verschwinden. Sie werden einfach von der manuellen Bedienung