Python ändert das Schicksal spektakulär: Open-Source-Hermes besiegt erstmals OpenAI Codex

Ein Open-Source-Projekt, das vollständig in Python geschrieben ist, hat tatsächlich die Trumpkarte von OpenAI, die in Rust geschrieben ist, überboten! Am Ende stand das Ergebnis bei 6:5. Hermes hat direkt die ästhetische Kraft der Ingenieurskunst gezeigt, und die interpretierte Programmiersprache hat endlich ihr Schicksal umgewandelt.

Ein Open-Source-Projekt, das vollständig in Python geschrieben ist, hat die Spitzenleistung von OpenAI geschlagen!

Heute hat die beeindruckende Leistung von Hermes Agent das Internet in Sturm gesetzt:

In 11 Benchmark-Tests für echte CLI-Aufgaben hat es Codex mit 6:5 geschlagen und es sozusagen in den Boden gedrückt.

In diesem hochbeachteten Duell hat Hermes Agent eine erstaunliche Fähigkeit zur Optimierung der unteren Ebenen gezeigt.

Durch eine Reihe von beeindruckenden Maßnahmen hat es die Startzeit des Systems von 701 ms auf 258 ms verkürzt.

Was noch beeindruckender ist, ist, dass Hermes vollständig in Python geschrieben ist, während Codex in Rust programmiert wurde.

In diesem Kampf hat Python Rust geschlagen!

In der Programmierwelt ist dies eine Art "Umkehrung des Schicksals".

Drei entscheidende Maßnahmen, die die Startzeit um 63 % reduzieren

Vor dieser Optimierung lag Hermes noch hinter mit 5:6.

Diese Umkehrung war nicht auf den Wechsel des Modells oder die Erhöhung der Rechenleistung zurückzuführen, sondern auf drei reine Ingenieuroptimierungen, die direkt ins Schwarze trafen.

Wie hat es das genau geschafft?

Erster Schritt: Bitwarden-Datenträger-Cache

Bisher hat Hermes bei jedem Start die API des Bitwarden Secrets Managers aufgerufen, um Anmeldeinformationen abzurufen, was 380 Millisekunden dauerte.

Das Problem war, dass der vorherige Cache "nur innerhalb des Prozesses" war. Wenn man zweimal hintereinander "hermes chat -q" ausführte, musste die zweite Abfrage erneut durchgeführt werden.

Die Lösung war die Hinzufügung eines L2-Datenträger-Caches.

Die Berechtigungen der Cache-Datei sind auf 0600 gesperrt und werden in /cache/bws_cache.json gespeichert. Die Standard-TTL beträgt 300 Sekunden.

Außerdem wird das Zugriffstoken selbst nie auf den Datenträger geschrieben. Die Standard-TTL beträgt 300 Sekunden, und erst nach Ablauf wird es erneut abgerufen.

Dadurch wurden 380 ms eingespart.

Zweiter Schritt: Verzögerte Ladung des Modellverzeichnisses

hermes_cli.models._PROVIDER_MODELS ist ein riesiges Wörterbuch, das Informationen zu allen KI-Anbietermodellen enthält.

Bisher wurde es beim Laden des Moduls sofort importiert, was etwa 55 ms dauerte.

Tatsächlich wird es nur von den mit model_flow verbundenen Verarbeitungsfunktionen benötigt.

Das Team hat mit PEP 562 eine träge Ladung implementiert, sodass die Kosten erst bei der eigentlichen Zugriffszeit auf das Modellverzeichnis anfallen.

Dadurch wurden weitere 55 Millisekunden eingespart.

Dritter Schritt: Entfernung von Duplikaten in der Konfigurationsdatei

Am Anfang von main.py wurde die config.yaml-Datei ursprünglich zweimal gelesen.

Einmal wurde yaml.safe_load für die Entschlüsselung von Schlüsseln verwendet, und einmal wurde die vollständige load_config()-Funktion (einschließlich tiefer Zusammenführung) nur verwendet, um einen booleschen Wert zu überprüfen.

Durch die Vereinigung in einer einzigen ursprünglichen Ladung wurden 17 ms eingespart.

Insgesamt hat sich die Startzeit von 701 ms auf 258 ms reduziert, was einer Reduzierung von 63 % entspricht.

Eigentlich ist dies die wahre Kunst der Ingenieurskunst, wobei die Engpässe durch Profiling identifiziert und die Überflüssigkeiten schrittweise entfernt werden.

6:5 Sieg - Hermes wendet die Lage um

Das Endergebnis lügt nicht.

Vor der Optimierung hatte Hermes gegen Codex einen Gesamtstand von 5 Siegen und 6 Niederlagen: Bei Einzelaufgaben wurde es von Codex unterdrückt, und bei Mehrfachaufgaben hatte es zwar einen leichten Vorteil, aber dieser war nicht sehr deutlich.

Nach der Optimierung hat sich die Situation vollständig umgedreht.

Einzelaufgaben (8 Aufgaben): Die mittlere Rahmenkosten von Hermes sind auf das Niveau von Codex gesunken oder sogar etwas niedriger.

Der ursprüngliche Startnachteil gegenüber Codex wurde vollständig ausgeglichen.

Mehrfachaufgaben (3 Aufgaben): Hermes hat bereits bei der Gesamtkosten von 5 Dialogrunden den Vorsprung, und nach der Optimierung hat sich dieser Vorteil noch vergrößert.

Der endgültige Punktestand ist 6:5, und Hermes hat die Führung übernommen.

Dies bedeutet, dass ein Open-Source-Projekt, das in Python geschrieben ist, in Bezug auf die Rahmenkosten -

eine Dimension, die die unteren Ebenen am meisten herausfordert, einen geschlossenen Quellcode-Product, das in Rust geschrieben ist und hinter dem eine Firma mit Billionenwert steht, geschlagen hat.

Python hat Rust geschlagen

Das wirklich unintuitive ist, warum Python Rust geschlagen hat?

Seit langem ist Python in der Performance-Welt fast wie eine "Sündenlosigkeit": Interpretierte Sprache, GIL-Sperre, dynamische Typisierungskosten...

Als OpenAI entschied, Codex CLI in Rust zu bauen, erschien es allen als selbstverständlich -

Rust ist von Natur aus für Leistung gemacht.

Aber Hermes' Umkehrung zeigt ein wichtiges Faktum:

Im Bereich der Agenten ist die Architekturentscheidung auf Rahmenebene wichtiger als die ursprüngliche Geschwindigkeit auf Sprachebene.

Die Kommentare des Entwicklers netrunner treffen den Nagel auf den Kopf: "Python hat Rust in Mehrfachaufgaben geschlagen, was im Wesentlichen ein Sieg der Architekturentscheidung und nicht der Sprachgeschwindigkeit ist."

"Codex könnte bei der Kontextverarbeitung übermäßig ingenieursmäßig ausgelegt sein."

Einige fragen: "Warum wird Hermes nicht auch nach Rust migriert? Würde das nicht schneller sein?"

Teknium, Mitbegründer und Chefwissenschaftler von Hermes, sagt direkt: "Dann könnte man den Code nicht bearbeiten und in Echtzeit verbessern und iterieren."

Das heißt, der Vorteil von Python liegt nicht in der Geschwindigkeit, sondern in der Flexibilität.

Für einen Agenten, der kontinuierlich evolvieren und aus jeder Interaktion lernen muss, sind die Entwicklerfreundlichkeit und die Iterationsgeschwindigkeit die größten Leistungsvorteile.

167.000 Sterne auf GitHub

Konfrontation mit einem Giganten

Die Explosionsgeschwindigkeit von Hermes Agent ist selbst eine beeindruckende Statistik.

Seit der Veröffentlichung am 25. Februar 2026, also erst drei Monate, hat es auf GitHub bereits über 160.000 Sterne erreicht.

Der tägliche Verbrauch von Tokens beträgt 353 Milliarden, fast doppelt so viel wie bei dem ähnlichen Projekt OpenClaw.

Man kann sagen, dass es der am schnellsten wachsende Open-Source-Agentenrahmen von 2026 ist, ohne Widerspruch.

GitHub-Adresse: https://github.com/nousresearch/hermes-agent

Das Kernstück von Hermes ist ein geschlossener Lernrahmen:

Nach jeder komplexen Aufgabe extrahiert der Agent automatisch die Lösung zu einem wiederverwendbaren Skill (Fertigkeit).

Beim nächsten ähnlichen Auftrag kann er die vorhandene Fertigkeit direkt aufrufen und die Neuauswertung überspringen.

Interne Benchmark-Tests von NousResearch zeigen, dass Hermes-Instanzen mit über 20 selbst erstellten Fertigkeiten Aufgaben um 40 % schneller erledigen als neue Instanzen.

Was noch besser ist, ist die Einführung des autonomen Curators in Version 0.12 -

ein im Hintergrund laufender Agent, der regelmäßig deine Fertigkeitsbibliothek bewertet, kürzt und zusammenführt.

Mit anderen Worten, Hermes kann nicht nur lernen, sondern auch das Gelernte selbst organisieren.

Die Sprache ist keine Grenze, die Architektur ist es

Das, dass Python Rust geschlagen hat, sieht wie ein "Umkehrungsdrama" zwischen Programmiersprachen aus.

Aber es zeigt etwas viel Tiefgründigeres.

In der Welt der KI-Agenten wird der Leistungsunterschied zwischen den unteren Ebenen der Sprache immer weniger wichtig.