Sowohl DeepAgent als auch DeepSearch dominieren die Listen, und die Antwort zeigt auf das aufstrebende Open-Source-Projekt openJiuwen.
Seit Anfang 2026 ist im Kreis der Künstlichen Intelligenz ein kleiner Hummer namens Clawdbot der absolute Hype.
Von Clawdbot zu OpenClaw - zwei Umbenennungen konnten die Begeisterung der Menschen nicht bremsen. Ein globales kollektives Verlangen zeichnet sich ab: Menschen wünschen sich dringend einen höherwertigen, universelleren und zuverlässigeren Superintelligenten Agenten.
Im vergangenen Jahr waren Agenten wie Pilze aus dem Boden geschossen, und 2025 wurde sogar als das „Jahr der künstlichen Intelligenz - Agenten“ bezeichnet. Um die wahre Stärke eines Agenten zu messen, muss man sowohl die Fähigkeit zur umfassenden Problemlösung in allgemeinen Szenarien als auch die Kernkompetenzen in vertikalen Bereichen betrachten. Die GAIA - Universalintelligenz - Benchmark - Rangliste und die BrowseComp - Plus - Tiefenforschung - Benchmark - Rangliste sagen mehr aus als jede theoretische Diskussion.
Letztes Jahr war der Agent des Start - Ups Manus ein Riesenhit und hat auch die GAIA - Rangliste in die Popularität gebracht. Seitdem scheint jeder Agent versucht, sich auf der GAIA - Rangliste einen Platz zu sichern. Der BrowseComp - Plus - Benchmarktest, der sich auf Tiefenforschung und Webseiten - Browsing - Fähigkeiten konzentriert, ist dank seiner strengen Bewertungsstandards zur Kernarena für die Konkurrenz um die Suchfähigkeiten von Agenten geworden.
Kürzlich haben wir bei der Durchsicht der beiden Ranglisten festgestellt, dass an der Spitze beider Listen neue Rekorde stehen: Der DeepAgent und der DeepSearch, die auf dem aufstrebenden Open - Source - Projekt openJiuwen basieren, haben beide die Spitzenplätze in der GAIA - und der BrowseComp - Plus - Rangliste errungen.
DeepAgent führt die GAIA - Rangliste an
Der auf openJiuwen basierende DeepAgent hat mit 91,69 % die Spitze der GAIA - Rangliste erreicht. Damit hat er den Nvidia Nemotron und eine Reihe von führenden Agenten aus China und dem Ausland hinter sich gelassen.
Link zur Rangliste: https://gaia - benchmark - leaderboard.hf.space/
- GAIA - Ranglistenkampf: Die größte Herausforderung für Agenten
Die GAIA - Rangliste ist keine, die große Modelle beschönigen will.
GAIA ist ein von Meta und Hugging Face gemeinsam entwickeltes Bewertungs - Benchmark, das speziell auf die Fähigkeiten von Universal - Agenten ausgerichtet ist. Es deckt 12 Kernfähigkeiten wie Langzeit - Aufgabenplanung, Multimodalverstehen, Werkzeugaufruf, komplexe Schlussfolgerung und Robustheit der Ausführung ab und hat drei Schwierigkeitsgrade von Level 1 bis 3. Die Aufgaben auf Level 3 sind fast so schwierig wie die, die ein Mensch bewältigen müsste. Der Test verwendet einen geschlossenen Testdatensatz und einen automatisierten Bewertungsmechanismus, um die umfassende Fähigkeit eines Agenten gründlich zu prüfen.
Nach der Beschreibung des GAIA - Tests auf Hugging Face erreichen menschliche Teilnehmer in diesem Benchmarktest durchschnittlich eine Erfolgsrate von etwa 92 %. Selbst mit der Hilfe von Plug - ins kann GPT - 4 nur eine Leistung von etwa 15 % erzielen.
Das Design des GAIA - Tests hat einige deutliche Merkmale, die es von traditionellen KI - Benchmarks unterscheiden. Es kann eine Vielzahl von Agenten, die „auf den ersten Blick intelligent aussehen“, von der Teilnahme abhalten.
1. Reale Weltkomplexität (Real - world difficulty): Die Aufgaben betreffen nicht nur Sprachverständnis, sondern auch Schlussfolgerung, Planung, Multimodalverarbeitung, Werkzeugaufruf und Ausführung von Handlungen. Sie nähern sich den Aufgaben an, die ein Agent in der realen Welt bewältigen muss.
2. Menschliche Interpretierbarkeit (Human interpretability): Obwohl die Aufgaben für KI schwierig zu verstehen sind, sind sie für Menschen klar und überprüfbar. Dies macht die Bewertungsergebnisse glaubwürdiger und hilft, die Lücke zwischen Mensch und Maschine zu vergleichen.
3. Strategie gegen Ranglistenmanipulation (Non - gameability): GAIA legt Wert auf die Qualität des gesamten Aufgabenausführungsvorgangs. Die richtige Antwort erfordert die vollständige Ausführung der Aufgabe, und die Methode des „brutalen Eindringens“ funktioniert nicht.
Der openJiuwen - DeepAgent hat mit 91,69 % fast die gleiche Leistung wie die menschlichen Teilnehmer in der GAIA - Prüfung, die etwa 92 % beträgt.
Dieser Erfolg bedeutet, dass er in den Dimensionen Planung, Ausführungsstabilität, Werkzeugkooperation, Multimodalverstehen und Aufgabenabschluss systemweite Vorteile hat. Es bedeutet, dass der Universal - Agent in der Lage ist, Aufgaben fast so gut wie ein Mensch auszuführen.
Die tatsächliche Leistung des DeepAgent. Aufgabe: Analysiere ein YouTube - Video über das Kochen automatisch und kaufe die Zutaten.
An einem typischen Browser - Use - Fall kann man die „Höchstleistung des DeepAgent“ direkt erkennen.
Der Benutzer muss nur einen Befehl geben, und der DeepAgent kann das YouTube - Videorezept analysieren, die Zutatenliste automatisch erkennen, dann auf der E - Commerce - Website die Zutaten nach der Liste suchen, in den Warenkorb legen und die Preise vergleichen. Wenn alle Zutaten bereit sind, übergibt der Agent die Kontrolle an den Benutzer, um die Zahlung zu bestätigen. Der gesamte Prozess verläuft reibungslos und zeigt die stabile Ausführungskapazität in der realen und komplexen Welt.
- Hinter dem DeepAgent: Die Geheimnisse des Ranglistenführers
Dass der DeepAgent die Spitze der GAIA - Rangliste erreicht hat, ist kein Zufall. Von Anfang an war sein Design auf die Anforderungen der Rangliste zugeschnitten. In der GAIA - Bewertung bedeutet eine hohe Punktzahl, dass mehrere strenge Bedingungen gleichzeitig erfüllt werden müssen:
Verständnis von natürlichen Sprachaufgaben, die unscharf, lang und mit vielen Bedingungen behaftet sind
Fähigkeit zur mehrstufigen Planung anstatt linearer Ausführung
Stabile Nutzung von Werkzeugen, Zugang zu Webseiten, Verarbeitung von Dateien und Ausführung von Code
Fähigkeit zur Selbstkorrektur bei Fehlern oder fehlenden Informationen, um Abstürze oder Halluzinationen zu vermeiden
Drei Kerngedanken enthüllen das Geheimnis des DeepAgent, der die GAIA - Rangliste dominiert.
1. Agent - dynamisches Selbstentwicklungssystem: Vom „linearen Ablauf“ zum „geschlossenen Selbstregelkreis“
In der Praxis muss der Agent natürliche Sprachbefehle strukturieren und unscharfe Anforderungen in ausführbare Schritte zerlegen. Bei der Ausführung der Aufgabe muss er in der Lage sein, seinen Plan dynamisch an die aktuellen Rückmeldungen anzupassen, um sicherzustellen, dass die Aufgabe auch bei Veränderungen erfolgreich abgeschlossen werden kann.
Dafür führt der DeepAgent gleichzeitig zwei geschlossene Kreise aus: „Planung - Ausführung“ und „Beobachtung - Reflexion“. Er strukturiert nicht nur die natürlichen Sprachbefehle, sondern ist eher wie ein Kommandeur mit einer „Kontrollzentrale“. Während der Ausführung überprüft er kontinuierlich die Ergebnisse. Sobald er eine Abweichung in der Umgebung oder der Logik wahrnimmt, löst das System sofort eine lokale Rücknahme und Selbstreparatur aus, um zu vermeiden, dass der Agent in ein typisches Scheitern verfällt.
Zusätzlich hat der DeepAgent dank der Selbstentwicklungskapazität von openJiuwen ein evolvierbares externes Gedächtnis als „digitale Hirn“ für seinen Kernmotor. Dies ist nicht einfach eine Datenspeicherung, sondern ein kognitiver Mittelpunkt mit Selbstheilungskraft. Er kann die Ursache von Fehlern bei der Aufgabenausführung genau diagnostizieren, die Logik mithilfe des Rückmeldungsmechanismus des externen Gedächtnisses korrigieren und nach der selbstständigen Generierung von Optimierungsstrategien die nachfolgende Ausführungskapazität kontinuierlich verbessern.
2. Mehrstufiges Kontext - Management - System: Sicherstellung der kognitiven Konsistenz des Agenten
Bei hochschwierigen Aufgaben wie in GAIA liegt die eigentliche Herausforderung darin, „ob man auf der Grundlage zuverlässiger Informationen kontinuierlich schlussfolgern kann“. Deshalb hat der DeepAgent ein kontextuelles System entwickelt, das Schichtenweise integriert, über den gesamten Prozess verfolgbar und langfristig konsistent ist. Es speichert Gesprächsaufzeichnungen, Projektwissen, Bereichsregeln und Entitätsbeziehungen in Schichten und verknüpft sie dynamisch, um ein strukturiertes System zu bilden. Jeder Schlussfolgerungsschritt ist mit einer Evidenzkette versehen, um die Interpretierbarkeit der Ergebnisse zu gewährleisten.
Zusätzlich kann der DeepAgent dank der Kontext - Komprimierungskapazität von openJiuwen in langfristigen Aufgaben irrelevanten Kontext in der richtigen Zeit komprimieren und entfernen, so dass der Agent in langfristigen Aufgaben seine interne Konsistenz und Glaubwürdigkeit behält und nicht immer ungenauer wird.
3. Asynchrones Werkzeug - Scheduling - System: Einheitliche Planung und zuverlässige Ausführung heterogener Werkzeuge
Bei komplexen Werkzeugketten ist die ungeordnete API - Nutzung oft der Grund für Systemabstürze. Der Agent muss in der Lage sein, verschiedene Expertenmodule wie ein Teamleiter zu planen, damit jedes Modul seine Aufgabe erfüllt. Gleichzeitig muss er in der Lage sein, externe Werkzeuge und Systeme zur richtigen Zeit zu nutzen, um eine effiziente und zuverlässige Ausführung zu gewährleisten.
Die Aufgaben in GAIA betreffen in großem Umfang die Manipulation in der realen Welt. Der DeepAgent hat diese Fähigkeiten nicht an verschiedene unabhängige Werkzeuge ausgelagert, sondern durch ein einheitliches Werkzeug - Gateway und ein Scheduling - Mechanismus externe APIs, Systeme und Datenbanken in standardisierte Fähigkeitsknoten abstrahiert. Dies unterstützt nicht nur die asynchrone Planung bei hoher Parallelität, sondern auch die Kontrollierbarkeit, Nachverfolgung und Wiederholung der Werkzeugnutzung sowie die Überprüfung des Ausführungsvorgangs und die Prüfung der Zuverlässigkeit.
In der realen Weltmanipulation von GAIA verteilt der DeepAgent Aufgaben wie ein Experten - Teamleiter präzise, um sicherzustellen, dass jede Werkzeugausgabe in eine stabile Punktzahl umgewandelt werden kann.
Im gesamten Aufgabenablauf unterstützen diese Fähigkeiten wie ein aufgeschaltetes Skill - Tree den Agenten dabei, in den komplexen Aufgaben von GAIA stabile Punkte zu sammeln. Am Wendepunkt, an dem Agenten in die Produktivitätsära eintreten, ist es nicht das Modell, sondern die Tiefe der Agenten - Fähigkeitsentwicklung, die die Obergrenze bestimmt.
DeepSearch führt die BrowseComp - Plus - Rangliste an
Der auf openJiuwen basierende DeepSearch hat mit 80 % Genauigkeit die Spitze der BrowseComp - Plus - Rangliste erreicht.
Link zur Rangliste: https://huggingface.co/spaces/Tevatron/BrowseComp - Plus
- Die BrowseComp - Plus - Rangliste: Die Kernherausforderung für die Tiefensuche
BrowseComp - Plus ist das wichtigste und autoritative Benchmark in der Branche, um die Tiefensuche, Forschung und Webseiten - Browsing - Fähigkeiten von Agenten zu messen. Als Upgrade des OpenAI BrowseComp - Benchmarks deckt es Kernfähigkeiten wie Mehrfach - Retrieval, Integration von Informationen aus verschiedenen Quellen, Planung der Suchschlussfolgerung und Verständnis von Webseiteninhalt ab. Es testet die Fähigkeit des Agenten, effektive Informationen aus einer riesigen Menge an Texten effizient zu extrahieren, Störungen auszuschließen und präzise Antworten zu geben.
Das Bewertungsystem von BrowseComp - Plus ist sehr wissenschaftlich:
1. Es verwendet eine feste, von Menschen validierte Textkorpus, um die Testumgebung zu erstellen. Jede Testfrage ist mit einem von Menschen validierten Unterstützungsdokument und einem hochschwierigen Störungsdokument versehen, um die Bewertungsabweichungen aufgrund der Dynamik des realen Netzwerks vollständig zu vermeiden.
2. Die strenge Genauigkeit ist die Kernbewertungsdimension, ergänzt durch Indikatoren für die Effizienz der Suchanfragen. Die Bewertung erfolgt durch ein standardisiertes und automatisiertes System ohne menschlichen Eingriff.
3. Die Ergebnisse sind überprüfbar. Dank der festen, von Menschen validierten Textkorpus haben alle Antworten eine klare Herkunft. Dies vermeidet die Bewertungsabweichungen aufgrund der Dynamik des realen Netzwerks vollständig, macht die Bewertungsergebnisse reproduzierbar und überprüfbar und gewährleistet die Fairness der Bewertung möglichst viel.
Dank des professionellen Testdesigns ist die BrowseComp - Plus - Rangliste zu einer wichtigen Referenz für weltweit führende Institutionen geworden, um die wahre Stärke von Tiefensuch - Agenten zu testen. Der openJiuwen - DeepSearch hat mit 80 % Genau