Statt ständig neues Rad zu erfinden, ermöglicht Agent skills eine "kollektive Evolution", und sechs Runden der Evolution bringen eine Verbesserung von 88%.
Basierend auf großen Sprachmodellen (LLM) können AI-Agenten bereits komplexe Aufgaben wie die Konfiguration von Diensten, das Debuggen von APIs und die Automatisierung mehrstufiger Workflows erledigen. Diese Fähigkeiten hängen in hohem Maße von "Skills" ab, also strukturierten Programmen, die den Toolaufruf und den Aufgabenlösungsablauf kodieren.
Allerdings besteht ein grundlegendes Problem in der aktuellen Agent-Skills-Ekologie: Die Skills sind nach der Bereitstellung im Wesentlichen statisch. Effektive Lösungen, die Benutzer während der Interaktion herausfinden, bleiben oft auf die aktuelle Sitzung beschränkt. Sie werden weder in die Skills-Bibliothek "abgespeichert" noch an andere Benutzer weitergegeben. Wenn verschiedene Benutzer wiederholt denselben Workflow, ähnliche Toolaufrufsmuster und ähnliche Fehlerszenarien begegnen, kann das System daraus nicht lernen. Jeder Benutzer erfindet ständig neu das Rad.
Um dieses Problem zu lösen, hat das Forschungsunternehmen DreamX SkillClaw vorgeschlagen, ein Framework für die kollektive Skills-Evolution in einer Mehrbenutzer-Agent-Ekologie. Es nutzt die Interaktionsdaten über Benutzer und Zeit hinweg als Kernsignal für die Verbesserung der Skills. Ein autonomer Evolutionsmotor aggregiert kontinuierlich die Interaktionspfade, erkennt Verhaltensmuster und aktualisiert die Skills-Bibliothek, sodass Verbesserungen, die in einem Benutzer-Szenario entdeckt werden, automatisch auf das gesamte System übertragen werden können.
Der zugehörige Artikel wurde auf arXiv veröffentlicht, und der Code ist auf GitHub open source verfügbar.
Link zum Artikel: https://arxiv.org/pdf/2604.08377
GitHub-Adresse: https://github.com/AMAP-ML/SkillClaw
Die Kernbeiträge sind wie folgt:
- SkillClaw ist das erste Framework, das die von Mehrbenutzern getriebene kollektive Skills-Evolution realisiert. Es wandelt die Interaktionserfahrungen verschiedener Benutzer in eine kontinuierliche Aktualisierung der gemeinsamen Skills-Bibliothek um, ohne dass Benutzer zusätzliche Aktionen ausführen müssen.
- Das Skills-Aktualisierungsmechanismus basiert auf dem Agentic Evolver. Durch offene Inferenz (statt vordefinierter Regeln) analysiert er die Interaktionsbeweise und entscheidet autonom über die Verbesserung, Schaffung oder Beibehaltung von Skills.
- Experimente auf der WildClawBench-Benchmark zeigen, dass SkillClaw nach 6 Evolutionsrunden in allen vier Aufgabenkategorien kontinuierlich verbessert wurde. In der Kategorie "Creative Synthesis" betrug die relative Verbesserung 88,41%.
Wie wird SkillClaw entwickelt?
Die Gestaltung von SkillClaw basiert auf einem zentralen Erkenntnis: Wenn verschiedene Benutzer einen Skill in verschiedenen Szenarien nutzen, entstehen komplementäre Perspektiven auf die Verhaltensgrenzen dieses Skills. Dies zeigt unter welchen Bedingungen er effektiv ist und unter welchen er fehlschlägt. Einzelne Benutzer generieren selten genug Signale, um "verallgemeinerbare Verbesserungen" von "szenariospezifischen Reparaturen" zu unterscheiden. Die Aggregation von Beweisen über Benutzer hinweg bildet die Grundlage für eine stabile Skills-Evolution.
Abbildung | Überblick über das SkillClaw-Gesamtframework
Das gesamte System bildet eine zyklische Pipeline: Mehrbenutzer-Interaktion → Sitzungssammlung → Skills-Evolution → Skills-Synchronisierung. Im Folgenden werden die drei Phasen erläutert.
1. Von isolierten Sitzungen zu gemeinsamen Beweisen
SkillClaw dokumentiert zunächst jede Interaktionssitzung als strukturierte Kausalitätskette: Benutzer-Prompt → Agent-Aktion (einschließlich Toolaufruf) → Zwischenrückmeldung (Toolergebnis, Fehlermeldung, Benutzerantwort) → endgültige Antwort. Der vollständige Zwischenprozess wird beibehalten, weil die meisten Skills-Fehler prozessbezogen sind. Probleme wie falsches Parameterformat, fehlende Validierungsschritte oder falsche Toolaufrufreihenfolge sind in der endgültigen Antwort nicht ersichtlich und können nur aus der Aktion-Rückmeldung-Kette diagnostiziert werden.
Anschließend werden alle Sitzungen nach den referenzierten Skills gruppiert. Für jeden Skill wird eine Evidenzgruppe aus allen Sitzungen gebildet, in denen er aufgerufen wurde. Sitzungen, in denen kein Skill verwendet wurde, werden in eine separate Gruppe eingeordnet. Wenn mehrere Sitzungen denselben Skill aufrufen, aber unterschiedliche Ergebnisse liefern, wird der Skill selbst zur "Kontrollvariable". Diese natürliche Ablationsstudie ermöglicht zwei Arten von Analysen: die Bewertung der tatsächlichen Leistung bestehender Skills in vielfältigen realen Anwendungen und die Identifizierung von wiederholten Workflows, die von keinem Skill abgedeckt werden, aus der separaten Gruppe.
2. Agentic Evolver: Autonomer Skills-Evolutionsmotor
Der Kern von SkillClaw ist ein Agentic Evolver, ein LLM-Agent mit einer strukturierten Harness. Er erhält die gruppierten Sitzungsbeweise und die aktuelle Skill-Definition und entscheidet durch offene Inferenz, wie er handeln soll. Die Harness bietet strukturierte Eingaben, beschränkt aber den Inferenzprozess nicht. Diese getrennte Gestaltung von "festem Rahmen + offene Inferenz" ermöglicht es dem System, vielfältige Fehlermuster zu verarbeiten, ohne für jede Situation Regeln schreiben zu müssen.
Genauer gesagt betrachtet der Evolver für jeden Skill und seine zugehörige Sitzungsgruppe sowohl erfolgreiche als auch fehlgeschlagene Ausführungen und wählt aus drei Aktionen aus: Refine (Korrektur von identifizierten Fehlern oder Verbesserung der Robustheit), Create (Schaffung eines neuen Skills, wenn die Beweise einen wiederholten Teilworkflow aufzeigen, der von keinem bestehenden Skill abgedeckt wird), Skip (Beibehaltung des Status quo, wenn die Beweise keine Änderung unterstützen).
Wichtig ist, dass der Evolver immer erfolgreiche und fehlgeschlagene Sitzungen gemeinsam analysiert. Erfolgreiche Sitzungen definieren die "Invarianten" in einem Skill, also die Teile, die funktionieren. Fehlgeschlagene Sitzungen definieren die Ziele für die Korrektur. Diese gemeinsame Perspektive verhindert ein häufiges Fehlermuster: Die Reparatur eines Problems führt versehentlich zu einer Beeinträchtigung eines bereits validierten Workflows. So wird sichergestellt, dass die Evolution kumulativ ist.
3. Synchronisierung und Evolutionszyklus
Die von der Evolution generierten Kandidaten für Skill-Aktualisierungen müssen vor dem Schreiben in das gemeinsame Repository validiert werden. Die Validierung erfolgt nachts in der inaktiven Benutzerumgebung. Für die aktuelle Version und die Kandidaten-Aktualisierung desselben Skills wählt das System relevante Aufgaben aus den am Tag gesammelten Interaktionsdaten aus, führt beide Versionen in derselben Umgebung aus und vergleicht die Ergebnisse. Nur die bessere Aktualisierung wird akzeptiert und an alle Agenten synchronisiert. Abgelehnte Aktualisierungen werden nur als Kandidaten aufgezeichnet.
Dieser Validierungsschritt führt zu einem monotonen Bereitstellungsverhalten: Da nur Verbesserungen akzeptiert werden, verschlechtert sich der Pool der bereitgestellten Skills nicht mit der Zeit. Das gesamte System bildet einen vollständigen Zyklus: Interaktion → Beweis → Evolution → Validierung → Bereitstellung. Die aktualisierten Skills beeinflussen zukünftige Interaktionen und generieren neue Beweise für die nächste Evolutionsrunde. Aus der Benutzerperspektive geschieht dies alles automatisch im Hintergrund, ohne dass zusätzliche Aktionen erforderlich sind.
Experimentelle Ergebnisse
Das Forschungsunternehmen hat SkillClaw auf WildClawBench evaluiert. WildClawBench ist eine echte Agent-Benchmark mit 60 komplexen Aufgaben, die 6 Bereiche wie Produktivitätsworkflows, Codeausführung, soziale Interaktion, Suche, kreative Generierung und Sicherheitsausrichtung abdecken. Die Aufgaben müssen in einer echten Linux-Containerumgebung end-to-end ausgeführt werden.
Das Experiment simulierte eine Mehrbenutzer-Bereitstellungssituation, über 6 Tage (6 Runden). Jeder Tag bestand aus einer Interaktionsphase am Tag und einer Evolutions- und Validierungsphase nachts. 8 parallele Benutzer nahmen an der Interaktion teil. Alle Ausführungen, Evolutionen und Validierungen wurden von Qwen3-Max angetrieben. Die Ergebnisse sind wie folgt:
Tabelle | Benutzerleistungsevolution in vier Kategorien von WildClawBench (Tag 1 ist die Basislinie)
In der Kategorie Social Interaction gab es die schnellste Verbesserung. Am zweiten Tag stieg die Leistung von 54,01 % auf 60,34 % und blieb stabil. Dies zeigt, dass ein hochwirksamer Workflowengpass schnell behoben wurde.
In der Kategorie Search & Retrieval gab es eine schrittweise Verbesserung. Zunächst wurden die Probleme bei der Eingabevalidierung und der Dateierreichbarkeit gelöst, und dann wurde schrittweise die fähigkeit zur einschränkungsbewussten Suchplanung entwickelt. Dies spiegeln die Eigenschaft der Suchaufgaben wider, dass "die untere Ebenen der Zuverlässigkeit vor der höheren Ebene der Inferenz" steht.
In der Kategorie Creative Synthesis gab es eine starke Verbesserung am zweiten Tag, die dann stabil blieb. Dies zeigt, dass der Hauptengpass nicht in der Inhaltsgenerierung selbst liegt, sondern in der Dateiverarbeitung, der Konfiguration des Arbeitsverzeichnisses und der Einrichtung der multimodalen Pipeline.
In der Kategorie Safety & Alignment gab es erst am fünften Tag eine Verbesserung. Die Verbesserungen konzentrierten sich hauptsächlich auf die Ausführungszuverlässigkeit, wie die Rückfallstrategie bei Git-Authentifizierungsfehlern und das Verzeichnis-Kloning-Protokoll.
Zusätzlich erreichte in kontrollierten Validierungsexperimenten die durchschnittliche Verbesserung nach einer Evolutionsrunde 42,1 % für maßgeschneiderte Abfragen wie "Grundextraktion", "Fristanalyse" und "Berichtspeicherung". Die Leistung bei der "Berichtspeicherung" stieg von 28,3 % auf 100,0 %. Der anfängliche Fehler lag in der fehlenden umgebungsspezifischen Prozessierung (z. B. Ausgabepfad und -format). Sobald diese in wiederverwendbare Skills kodiert wurden, konnte das Problem vollständig behoben werden.
Tabelle | Ergebnisse der kontrollierten Validierung: Vergleich der Leistung von drei maßgeschneiderten Abfragen vor und nach der Evolution
Darüber hinaus hat das Forschungsunternehmen durch mehrere Fallstudien die konkreten Effekte der Skills-Evolution gezeigt.
Beispielsweise bei der Slack-Nachrichtenanalyse verwendete der ursprüngliche Agent einen naiven Workflow und behandelte Toolfehler (z. B. falsche API-Portkonfiguration) durch Ausprobieren. Die evolvierten Skills führten eine strukturierte Pipeline ein, die zunächst die Nachrichtenvorschau scannt, um relevante Inhalte auszuwählen, und dann die vollständigen Nachrichten selektiv abruft. Gleichzeitig werden bekannte API-Konfigurationsfehler direkt in die Skills kodiert. Dieser Wandel zeigt drei Schlüsselverbesserungen: Aufgabenaufteilung, aktive Fehlerkorrektur und selektiver Abruf.
Limitierungen und zukünftige Richtungen
Natürlich gibt es auch einige Limitierungen in dieser Studie.
Das Forschungsunternehmen hat festgestellt, dass SkillClaw derzeit noch in der Phase der kleinen Skalentests ist. Die Anzahl der Benutzerabfragen, die Feedbacksignale und die Interaktionstiefe sind begrenzt. Innerhalb des 6-tägigen Experimentfensters konnte die späte Evolution in einigen Kategorien (z. B. Creative Synthesis) die am Anfang etablierte optimale Skills-Bibliothek nicht übertreffen. Die Effekte einer längeren Evolution müssen noch beobachtet werden.
Darüber hinaus führt der Validierungsmechanismus zwar die Monotonie der Bereitstellung sicher, aber auch zusätzliche Token-Kosten. Die Kandidaten-Skills müssen in der realen Umgebung vollständige Tool-Interaktionen ausführen. Im Vergleich zur direkten Bereitstellung wird diese zusätzliche Kosten für eine stabilere Benutzerleistung eingetauscht.
Laut dem Artikel umfassen die zukünftigen Arbeitsrichtungen: die Erweiterung der Benutzerzahl und der Zeitspanne, um die Evolutionspfade zu bereichern, und die Einbringung von vielfältigeren Aufgaben und Validierungsbedingungen.
Von einer statischen Skills-Bibliothek zu einem dynamischen, interaktionsgetriebenen Skills-Ekosystem repräsentiert SkillClaw ein neues Paradigma: Die Fähigkeiten von Agenten werden nicht mehr manuell von Entwicklern gewartet, sondern wachsen autonom aus der kollektiven Erfahrung in der realen Nutzung. Wenn die Interaktionspfade verschiedener Benutzer zu gemeinsamen Wissen zusammengeführt werden können, hat das Agentensystem die Möglichkeit, sich mit der Nutzung kontinuierlich zu entwickeln.