Warum sollte Hermes OpenClaw binnen zwei Monaten ablösen?
Im April 2026 erhielt OpenClaw, das erst seit zwei Monaten in Mode war (allgemein als "Hummer" bezeichnet), seine Herausforderung. Hermes Agent belegte mehrere Wochen lang die Spitze der GitHub-Trending-Liste und sammelte stolze 22.000 Sterne ein.
Wie beliebt war es? Selbst Anthropic stahl von ihm. Am 10. April 2026 kritisierte Teknium, der Gründer von Nous Research, dass Anthropic die Funktion von Hermes kopiere, die Aufgabenabschluss automatisch zu erkennen und den Benutzer aktiv zu benachrichtigen. Die Community war sich einig, dass Hermes dank seines selbstevolvierenden Agenten, des automatischen Gedächtnismanagements und des Benutzermodellierungssystems den Vorgänger OpenClaw technisch übertroffen habe und die Richtung für Open-Source-Agenten neu definiert habe.
Wenn man jedoch die grandiosen Erzählungen beiseite lässt und die beiden Systeme vergleicht, wird man feststellen, dass die Gemeinsamkeiten in den Funktionen weitaus größer sind als die Unterschiede.
Beispielsweise haben beide eine Zeitplanung. Hermes unterstützt menschenlesbare Formate und standardmäßige Cron-Ausdrücke. Jede Aufgabe wird in einer isolierten Sitzung (Session) ausgeführt. OpenClaw unterstützt ebenfalls die drei Zeitplanungstypen "at", "every" und "cron". Die Aufgaben werden direkt in eine lokale JSON-Datei geschrieben und gehen beim Neustart nicht verloren.
Beim Delegieren von Sub-Agenten gibt es auch Übereinstimmungen. Hermes' delegate_task unterstützt Einzelaufgaben und bis zu drei parallele Sub-Aufgaben. Die Sub-Agenten-Umgebung ist vollständig isoliert, und nach Abschluss der Aufgabe wird nur eine Zusammenfassung zurückgegeben. OpenClaw's Sub-Agent-Mechanismus unterstützt ebenfalls die isolierte Ausführung im Hintergrund und die Rückgabe der Ergebnisse und kann sogar die Verschachtelungstiefe konfigurieren.
Beide verfügen über Browser-Automatisierung, TTS (Sprachsynthese), visuelle Fähigkeiten (Vision), Bildgenerierung und Sprachinteraktion. Bei den Gateways gibt es auch keine Überraschungen: Beide integrieren Nachrichten von über 20 Plattformen wie Telegram, Discord, Slack, WhatsApp und Signal.
Wenn man die Funktionsliste abhakt, wird man feststellen, dass die Funktionen beider Systeme fast vollständig übereinstimmen. Die angebliche "absolute Überlegenheit" auf der Funktionsliste existiert gar nicht.
Die Frage ist also: Warum ist Hermes so beliebt, wenn die Funktionen beider Systeme gleich sind? Wie viel von der in der Community gepriesenen "Selbstevolution", "automatischem Gedächtnis" und "Benutzermodellierung" sind tatsächliche Unterschiede in der unteren Struktur?
01 Der sich selbst entwickelnde Skill
Wenn man die Standardkonfiguration beider Systeme durchsucht, findet man nur einen echten Unterschied: Hermes hat einen geschlossenen Kreis der Selbstevolution bei den Skills (Fähigkeiten) implementiert.
Ein Skill ist die Arbeitsablauf-Einheit eines Agenten. Im Grunde handelt es sich um eine Markdown-Datei, die dem Agenten sagt, wie er bei einer bestimmten Aufgabe vorgehen soll, welche Tools er verwenden soll und wie er bei einem Fehler reagieren soll.
Hermes hat den Lebenszyklus der Skills in zwei Teile aufgeteilt: die stille Generierung zur Laufzeit und die Offline-Evolution.
Zuerst die Generierung. Wenn man den Agenten eine Aufgabe gibt und er während der Ausführung mehr als fünfmal ein Tool verwendet, oder wenn er einen Fehler behebt oder der Benutzer die Ausgabe korrigiert, wird eine vordefinierte Regel im Hauptrepository ausgelöst. Der Agent verpackt den erfolgreich durchgeführten Arbeitsablauf und speichert ihn als lokale SKILL-Datei. Dieser Prozess verläuft stumm, und oft merkt man gar nicht, dass der Agent sich eine neue Fähigkeit erlernt hat.
Wenn der Agent die nächste ähnliche Aufgabe bekommt, durchsucht er automatisch den Index. Der Ladevorgang erfolgt in vier Schritten, ähnlich wie beim Suchen in einer Bibliothek. Zuerst schaut er in die Katalogkarten (Tier 0) und fügt nur den Namen und die Beschreibung in den Systemhinweis ein, was etwa 3.000 Token beansprucht. Wenn die Richtung stimmt, holt er die vollständigen Inhalte Schritt für Schritt ab.
Was Hermes jedoch von den anderen unterscheidet, ist die zweite Phase: die Evolution.
Hermes hat ein Offline-Batch-Evolutionsalgorithmus integriert und ein eigenes Repository (hermes-agent-self-evolution) erstellt. Der Algorithmus basiert auf dem DSPy-Framework und einem Kernalgorithmus namens GEPA.
GEPA steht für Genetic-Pareto Prompt Evolution. Dieser Ansatz wurde nicht von Hermes entwickelt, sondern stammt aus einem Artikel von Lakshya Agrawal und anderen, der auf der ICLR 2026 als Vortrag vorgestellt wurde und den Titel "Reflective Prompt Evolution Can Outperform Reinforcement Learning" trägt.
Die meisten akademischen Arbeiten zur Skill-Evolution basieren auf RL (Reinforcement Learning). Frameworks wie SkillRL oder SAGE haben sogar "RL" in ihrem Namen und versuchen, die Fähigkeitsbibliothek durch Gradienten-Updates zu verbessern. GEPA geht einen anderen Weg und verzichtet bewusst auf RL. Das GEPA-Papier zeigt, dass man auch ohne Gradienten-Updates dank der Reflexionsfähigkeit des Large Language Models und einem Evolutionsalgorithmus nicht nur besser als RL performen kann, sondern auch eine höhere Effizienz bei der Stichprobennutzung erzielen kann.
Wie funktioniert GEPA? Der Algorithmus basiert auf drei Kernkomponenten.
Erstens die reflektierende Mutation (Reflective mutation). Dies ist keine zufällige Mutation, sondern der Large Language Model liest die Ausführungsverläufe (trace), reflektiert, warum etwas richtig oder falsch gelaufen ist und welche Änderungen an den Hinweisen vorgenommen werden müssen.
Zweitens die Pareto-Front-Selektion (Pareto frontier selection). Nachdem eine Reihe von mutierten Kandidaten-Skills generiert wurde, werden nicht nur diejenigen mit der höchsten Durchschnittsbewertung behalten. Wenn ein Kandidat auf mindestens einer Bewertungsprobe am besten abschneidet, wird er beibehalten. Dies dient dazu, die Vielfalt und Robustheit der Skill-Entwicklung zu gewährleisten.
Drittens die natürliche Sprachrückmeldung als Mutationssignal. Traditionelles RL verwendet numerische Belohnungen (reward), um die Parameter zu aktualisieren. Diese Signale sind jedoch zu grob, und man weiß nicht, was richtig oder falsch gelaufen ist. GEPA verwendet stattdessen konkrete natürliche Sprachrückmeldungen wie "In diesem Schritt wurden die Randbedingungen nicht überprüft" oder "Zuerst die Konfiguration lesen, dann den Cache schreiben". Der LLM kann diese Rückmeldungen verstehen und daraus die nächste Generation von Varianten ableiten, was effizienter ist als die Interpretation einer Gleitkommazahl.
Der Arbeitsablauf sieht wie folgt aus: Das System liest regelmäßig die vorhandenen SKILL-Dateien, erstellt eine Bewertungsmenge aus historischen Sitzungen (oder synthetisiert sie selbst). Dann tritt GEPA ein, analysiert die Ausführungsverläufe, gibt Reflexionshinweise, generiert Kandidaten-Varianten, führt eine Bewertung durch und wählt schließlich die Sieger mit dem Pareto-Algorithmus aus.
Nachdem der Offline-Evolutionskreislauf abgeschlossen ist und ein optimierter Skill erstellt wurde, wird die ursprüngliche Datei nicht direkt überschrieben. Stattdessen wird ein PR (Pull Request) erstellt, und erst wenn der menschliche Prüfer zustimmt, wird der evolvierte Skill aktiv. Das System führt niemals direkte Commits durch.
Dies durchbricht die Illusion, dass der Benutzer überhaupt nicht eingreifen muss. Hermes macht es deutlich: Die Skill-Generierung kann vollautomatisch und stumm erfolgen, aber die Skill-Evolution erfordert die menschliche Überprüfung.
Schauen wir uns nun OpenClaw an. Es hat auch ein Skill-System, aber jedes Schritt muss manuell durchgeführt werden. Man muss die Dateien manuell erstellen, installieren und autorisieren, damit die Skills funktionieren. Wenn man einen neuen Skill erstellt, muss man den Gateway-Prozess neu starten, damit das System ihn erkennt.
Außerdem ist das Laden von Skills in OpenClaw sehr einfach und grob. Es findet keine Aufgabenanpassung statt, und alle konfigurierten Skills werden in den Kontext aufgenommen, es sei denn, man fügt manuell ein Deaktivierungs-Tag hinzu.
Beide Systeme haben Skills. Der Unterschied liegt darin, wer den Startknopf drückt. Hermes sagt "Lass es mich machen", OpenClaw sagt "Mach es selbst".
02 Wer merkt sich was für wen
Wenn die Skills erklären, warum Hermes "je mehr man es benutzt, desto schneller wird", dann ist die andere Hälfte der Erzählung in der Community, dass "es weiß, wer ich bin", auf das Gedächtnissystem zurückzuführen.
Die drei größten Open-Source-Agenten (Claude Code, OpenClaw, Hermes) haben alle automatische Gedächtnisfunktionen. Wenn man jedoch genauer hinsieht, wird man feststellen, dass die Dienste, die Auslösemechanismen und die Lebensdauer des Gedächtnisses völlig unterschiedlich sind.
Zuerst Claude Code. Seine automatische Gedächtnisfunktion (auto-memory) ist standardmäßig aktiviert. Während der Arbeit speichert es automatisch Build-Befehle, Debugging-Erfahrungen, Architektur-Notizen und sogar Code-Stile. Alle 24 Stunden führt es ein Auto Dream durch, um veraltete oder widersprüchliche Informationen zu bereinigen. Dies klingt sehr intelligent, aber das System hat strenge Projektisolierung.
Die Grenze liegt am Git-Root (Projektstammverzeichnis). Die Erfahrungen, die man in Projekt A macht, können nicht in Projekt B übertragen werden. Es merkt sich keine persönlichen Präferenzen und interessiert sich nicht für den Benutzer, sondern nur für die Ausführung des Projekts.
OpenClaw's Gedächtnissystem ist eher langfristig. Bei jedem neuen Gespräch lädt es acht untere Dateien, einschließlich MEMORY.md und USER.md, in sein Gedächtnis. Diese Dateien werden nicht nur zwischen Projekten geteilt, sondern auch automatisch geschrieben.
Wie werden die Daten geschrieben? Der Schreibmechanismus ist sehr passiv und eher eine Sicherheitsmaßnahme. Wenn der Kontext (Token) des Gesprächs fast voll ist und das System eine Kompression durchführen will, führt der Agent einen stillen Durchlauf (silent turn) durch. In diesem Durchlauf notiert er die wichtigen Punkte des Gesprächs in die Tageschronik und schreibt die Benutzerpräferenzen in die langfristig gespeicherten Dateien MEMORY.md oder USER.md.
Deshalb denkt man, wenn man OpenClaw nach einer langen Pause öffnet, dass es "immer noch weiß, wer man ist". Dies liegt an dem passiv aufgebauten langfristigen Netzwerk, in dem die Präferenzen in die Startdateien geschrieben wurden. Dies gibt das Gefühl, dass man diese KI "züchten" kann. Im Grunde ist es jedoch eher ein Überlebensinstinkt, um Daten zu sichern, bevor das Gedächtnis voll ist. Bei den alten Chroniken muss man ohne externe semantische Vektordatbanken auf Schlüsselwortsuche zurückgreifen.
In dieser Hinsicht hat Hermes ein anderes Konzept. Vor Version v0.7 war Honcho der einzige vordefinierte langfristige Gedächtnis-Backend in Hermes, ohne andere Optionen.
Der ursprünglich standardmäßige Honcho ist sehr klug konzipiert. Die meisten Gedächtnissysteme von Agenten (einschließlich Hermes' standardmäßigem eingebauten Gedächtnis) sind im Grunde passive Aufzeichnungssysteme. Man spricht, und die Daten werden in Vektoren umgewandelt und in die Datenbank gespeichert. Beim nächsten Mal wird über die Berechnung der Distanz (Embedding-Kosinus-Ähnlichkeit) nach ähnlichen Themen gesucht.
Honcho geht einen anderen Weg. Es ist ein "AI-natives" Gedächtnis-Backend, das auf asynchronem dialektischem Denken (Dialectic reasoning) und tiefer Entitätsmodellierung basiert.
Nach einem Gespräch mit dem Agenten beginnt Honcho erst seine Arbeit. Es startet im Hintergrund zusätzliche Modellaufrufe, analysiert das Gespräch, extrahiert die Konzepte (Entity), die Präferenzen und richtet widersprüchliche Aussagen aus. Es rechnet die losen Äußerungen in strukturierte "Einsichten (Insight)" um.
Das klingt sehr fortschrittlich, aber es verbraucht viele Token und kann wichtige Details übersehen. Es ist sicherer, es als Plugin zu verwenden.
Aber selbst ohne Honcho ist Hermes' Gedächtnisschreibmechanismus aktiver als OpenClaw's. Hermes hat einen Nudge-Mechanismus implementiert, der etwa alle 15 Gesprächsrunden ausgelöst wird. Dies ist eine Zwangsanweisung für den Agenten, um die Gespräche zu reflektieren und die Benutzerpräferenzen zu notieren. Diese häufigen aktiven Reflexionen ermöglichen es Hermes, in der gleichen Zeit viel mehr Informationen in die dauerhaften Dateien zu schreiben.
Außerdem hat Hermes eine bessere Möglichkeit, das Gedächtnis wiederherzustellen. Es hat die Volltextsuche von SQLite FTS5 in die Standardarchitektur integriert. Man muss keine Vektor-Dienstleistungen konfigurieren, und der Agent kann direkt in den alten Gesprächen suchen.
Wenn man die drei Systeme vergleicht, wird die Evolutionslinie deutlich. OpenClaw hat ein passives langfristiges Gedächtnissystem. Claude Code kann aktiv aufzeichnen und organisieren, aber es konzentriert sich auf die Aufgaben, nicht auf den Benutzer. Hermes hat einen sehr aktiven Auslösezeitpunkt, kann die Gedächtnis-Plugins frei wechseln, teilt die Daten global und hat eine leistungsstarke Suchfunktion für alle historischen Gespräche.
Das macht sich auch im täglichen Gebrauch bemerkbar. OpenClaw lernt erst kurz vor dem Kollaps, wer man ist. Hermes dagegen beobachtet ständig die Benutzerpräferenzen und kann jederzeit auf die alten Gespräche zurückgreifen.
03 Die Komplexität verstecken
Sowohl die Selbstgenerierung von Skills als auch die häufige aktive Schreibung in das Gedächtnis beziehen sich auf dasselbe: Hermes trifft