Wann kann der Agent selbst Skills schreiben?

Eigentlich wird die Frage, "lass die Fähigkeiten (Skill) von selbst entstehen", bereits seit 26 Jahren gestellt.

Warum ist Lobster so nützlich? Eine Antwort ist, dass seine Fähigkeiten (Skills) so gut funktionieren.

Am 18. Dezember 2025 veröffentlichte Anthropic Agent Skills als offenen Standard. Es ist eine standardisierte Ordnerstruktur, die es Agenten ermöglicht, spezielle Fähigkeiten wie Apps zu laden. In jedem Skill-Ordner befindet sich eine Datei namens SKILL.md, in der erklärt wird, was diese Fähigkeit ist und wie man sie nutzt. Es können auch ausführbare Skripte abgelegt werden, sodass der Agent nicht nur weiß, was zu tun ist, sondern auch tatsächlich handeln kann.

Sobald der Standard eingeführt wurde, folgte die Branche mit überraschend hoher Geschwindigkeit. Microsoft integrierte ihn direkt in VS Code und GitHub. OpenAI nutzte in ChatGPT und Codex CLI fast die gleiche Architektur, hat es jedoch nicht offiziell bekannt gegeben. Codierungstools wie Cursor, Goose und Amp folgten ebenfalls. Box nutzt Skills, um Claude zu lehren, Dateien in PPTs und Excel-Dateien zu konvertieren, die den Unternehmensrichtlinien entsprechen. Notion nutzt Skills, damit Claude direkt in Notizen Aufgaben ausführen kann, anstatt nur zu chatten.

Warum ist dieser Standard so wichtig? Modellunternehmen haben Agenten mit Mitteln wie MCP, CLI und Memory-Layern ausgestattet, aber sie fehlt das Fachwissen.

Agent Skills füllen diese Lücke. Es geht nicht darum, "welche Tools generell genutzt werden können und wie man Aufgaben erledigt", sondern darum, "wie man eine bestimmte Aufgabe richtig erledigt".

Skills sind die Essenz des Know-how in Arbeitsabläufen. Ein weiterer Vorteil ist, dass sie schnell kopiert werden können. Wenn ein Unternehmen einen Skill für die Compliance-Prüfung erstellt hat, kann es ihn einfach an alle Agenten seiner Mitarbeiter verteilen.

Das Konzept ist zwar schön, aber die Realität hat sich gemeldet.

Anthropic bietet ein Tool namens skill-creator an, das angeblich Benutzern hilft, Skills automatisch zu generieren. In der ersten Woche nach dem Release beobachtete der Entwickler Samhita Alla die Nutzung von über 100 Benutzern und kam zu dem Schluss: "Die meisten Implementierungen sehen eher wie Spielzeuge als wie nützliche Tools aus."

Skills werden nicht ausgelöst, wenn sie sollten, zu viele Befehle führen dazu, dass der Agent überfordert wird, es gibt Sicherheitslücken und Dateiformatfehler. Diese Probleme treten immer wieder auf.

Automatisch generierte Skills sind unzureichend und unzuverlässig. Gut funktionierende Skills müssen von Menschen manuell verbessert werden.

Natürlich ist die Popularität von Skills darauf zurückzuführen, dass Agenten derzeit noch nicht genügend über menschliche Arbeitsabläufe, Richtlinien und Know-how wissen.

Aber wir hoffen, dass Agenten in der Lage sein werden, Lösungen für Probleme selbst zu finden.

Tatsächlich wird die Frage, "wie Skills entstehen können", seit 26 Jahren gestellt.

01 Von Gewichten zu Code: 26 Jahre des Skill-Suchens

1999 entwickelten Rich Sutton und seine Studenten Doina Precup und Satinder Singh ein theoretisches Framework namens options framework. Die zentrale Idee war, dass Agenten in der Lage sein sollten, wiederverwendbare Verhaltensmodule selbst zu entdecken und zu kombinieren, anstatt jedes Mal von vorne anzufangen und Schritt für Schritt zu testen. Dies war das erste formelle Konzept, das Ähnliches wie Skills im Bereich des maschinellen Lernens vorschlug.

Aber in dieser Zeit waren Skills in den Gewichtsmatrizen von neuronalen Netzen eingeschlossen. Sie waren nicht interpretierbar, nicht übertragbar und nicht bearbeitbar. Wenn man einen Skill zum Öffnen einer Tür trainierte, war es fast unmöglich, ihn in einer anderen Umgebung zu nutzen.

Dieses Problem dauerte 24 Jahre an, bis 2023 Jim Fan und andere mit Voyager in Minecraft Skills aus den Gewichten in den Code brachten. Dort erkundete ein von GPT - 4 angetriebener Agent das Spiel autonom. Wenn er eine neue Fähigkeit erlernte, schrieb er sie als JavaScript - Funktion und speicherte sie in einer Skill - Bibliothek. Wenn er später in einer ähnlichen Situation geriet, suchte er zuerst in der Bibliothek. Wenn er die passende Funktion fand, nutzte er sie direkt; ansonsten erstellte er eine neue.

Als Ergebnis gewann Voyager 3,3 Mal so viele einzigartige Gegenstände wie die stärkste vorherige Methode und erreichte eine 15,3 - fache Beschleunigung beim Entsperren des Technologiebaums. Wenn Skills in Code geschrieben werden, sind sie von Natur aus interpretierbar, bearbeitbar, kombinierbar und übertragbar.

Architekturdiagramm von Voyager: Automatisches Curriculum, iteratives Prompting - Mechanismus und Skill - Bibliothek (Wang et al., 2023)

Der wahre Beitrag von Voyager liegt nicht in den Zahlen. Es hat bewiesen, dass sich die Regeln des Spiels ändern, wenn die Darstellung von Skills von internen Parametern zu lesbarem Code wird. Skills in Parameterform sind schwarze Boxen, die man nicht sehen, ändern oder an andere Agenten weitergeben kann. Mit Code ist das alles möglich. Dies war der wahre Wendepunkt in 26 Jahren.

Agenten lernen Skills nicht, weil sie klüger werden, sondern weil Skills lesbar werden und somit akkumuliert, getestet und verbreitet werden können.

Allerdings hat Voyager eine grundlegende Einschränkung: Es existiert nur in Minecraft. Das Spiel hat geschlossene Regeln, beobachtbare Zustände und sofortige Validierung. Die reale Welt ist nicht so. Ein Agent, der Finanzdaten verarbeitet, kann nicht sofort feststellen, ob ein Skill in speziellen Situationen fehlschlägt.

Wenn man von Minecraft in die reale Welt wechselt, gibt es eine Reihe von Problemen zu lösen, wie Validierung, Qualitätssicherung und Übertragung zwischen Umgebungen.

Vom zweiten Halbjahr 2025 bis Anfang 2026 definierte Anthropic den Standard, die Industrie hatte Bedarf, und die Wissenschaft hatte Anknüpfungspunkte. Die Dinge begannen sich rapide zu ändern. Es handelte sich nicht um eine einzelne Studie, sondern um eine ganze Reihe von Arbeiten. Fast jeder Schritt, von der autonomen Entdeckung von Skills über die Kapselung und Kombination bis hin zur kontinuierlichen Verbesserung, hatte nun ein systematisches Verfahren.

Nachdem es eine Infrastruktur für die Zirkulation von Skills gab, wechselte die Frage "woher kommen Skills" von einem akademischen Interesse zu einer industriellen Engpassstelle.

Diese Studien basieren auf dem Lebenszyklus von Skills und umfassen drei Teile: wie Skills entdeckt, wie sie gekapselt und kombiniert und wie sie kontinuierlich verbessert werden.

02 Drei Wege sind geglückt: Exploration, Scheitern, Lernen

Zuerst die grundlegende Frage: Können Agenten nützliche Skills selbst entdecken, ohne dass sie von Menschen gelehrt werden?

Im Juni 2025 veröffentlichten Yongjin Yang und andere von der KAIST EXIF (Exploratory and Iterative Feedback) und schlugen eine interessante Zwei - Agenten - Architektur vor. Zwei Agenten, Alice und Bob, haben klare Aufgabenverteilungen. Alice ist die Entdeckerin. Sie wird in eine Umgebung gesetzt, um frei zu erkunden, verschiedene Aktionen auszuführen und zu notieren, was funktioniert und was nicht. Dann betrachtet Alice ihre Entdeckungswege und extrahiert daraus die Definition eines Skills.

Diese Skills werden an Bob weitergegeben. Bob nutzt sie, um konkrete Aufgaben auszuführen. Seine Leistung wird zurückgemeldet. Welche Skills funktionieren gut, welche nicht, und wo bleibt Bob stecken? Diese Informationen leiten Alice bei ihrer nächsten Exploration.

Dieser Zyklus wird kontinuierlich iteriert. Alice erkundet → definiert Skills → Bob führt aus → die Schwächen werden bewertet → die nächste Exploration wird geleitet. Der Schwerpunkt ist, dass der gesamte Prozess ohne menschliche Eingabe von Aufgabenbeschreibungen oder Skill - Definitionen abläuft. Alice und Bob schaffen es selbst, von der Unkenntnis bis zur Akkumulation eines Satzes von nutzbaren Skills.

Architekturdiagramm von EXIF: Alice erkundet die Umgebung und erzeugt Skills, Bob führt Aufgaben aus und gibt Feedback

Die interessanteste Entdeckung von EXIF stammt aus einem Zerlegungstest. Die Forscher testeten, ob dasselbe Modell gleichzeitig die Rollen von Alice und Bob übernehmen kann. Intuitiv sollte sich ein Modell selbst nicht gut lehren können. Aber das Ergebnis war, dass die Selbstentwicklung eines einzelnen Modells auch effektiv war. Die Entdeckung von Skills erfordert nicht unbedingt zwei Modelle, sondern ein Modell kann durch das "Explorieren" und "Nutzen" eigene effektive Skills entwickeln.

Während EXIF Skills durch "Exploration" entdeckt, geht das Team um Salaheddin Alzubi von Sentient im März 2026 mit EvoSkill einen völlig anderen Weg: den Weg des "Scheiterns".

EvoSkill lässt den Agenten nicht frei in der Umgebung erkunden. Stattdessen lässt es ihn direkt Aufgaben ausführen und analysiert dann die Ursachen des Scheiterns. Jeder Schritt der Ausführung wird aufgezeichnet. Wenn eine Aufgabe fehlschlägt, untersucht ein Proposer - Agent diese Aufzeichnungen, diagnostiziert die genauen Ursachen des Scheiterns, wie z. B. fehlerhafte Datenextraktion, fehlerhafte Zeiteinheiten oder fehlende Mehrfachverifikation, und schlägt dann neue Skills vor oder modifiziert bestehende.

Die vorgeschlagenen Skills werden nicht direkt übernommen, sondern müssen eine Auslese durchlaufen. Ein neuer Skill muss auf einem Validierungssatz zeigen, dass er besser als die bestehende Skill - Kombination ist oder dass er in einer Dimension verbessert wird, ohne die Leistung in anderen Dimensionen zu beeinträchtigen, um beibehalten zu werden. Dieser Selektionsmechanismus basiert auf dem Konzept der Pareto - Front in der mehrzieligen Optimierung. Es werden nur die Skills beibehalten, die "in keiner Dimension von anderen Skills vollständig übertroffen werden", alle anderen werden ausgeschieden.

EvoSkill - Evolutionszyklus: Neue Skills aus Scheitern entwickeln, nach Pareto - Selektion beibehalten

Da EvoSkill nach der Produktivierung von Skill - Sicherheit durch Anthropic veröffentlicht wurde, findet die Optimierung rein auf der Skill - Ebene statt. Es ist keine Feinabstimmung des Modells oder zusätzliche Trainingsdaten erforderlich, sondern nur, dass der Agent bei Aufgaben scheitert, die Ursachen analysiert und die Skills verbessert.

Nach der Iteration verbesserten die Skills die Leistung in OfficeQA (Fragen - und - Antwort - Aufgaben im Bürokontext) um 7,3 % und in SealQA (Such - erweiterte Fragen - und - Antwort) um 12,1 %. Aber noch wichtiger ist die Übertragbarkeit auf andere Aufgaben. Skills, die in SealQA entwickelt wurden, verbesserten die Leistung in BrowseComp (einem völlig anderen Web - Suchtestsatz) um 5,3 % ohne zusätzliche Anpassung.

Entwickelte Skills funktionieren nicht nur bei ihrer eigenen Aufgabe, sondern auch bei anderen Aufgaben.

SkillCraft bietet einen dritten Weg: den bedarfsgesteuerten Weg. Agenten entdecken während der Ausführung einer Aufgabe, dass sie einen Skill für eine bestimmte Situation benötigen, und erstellen ihn direkt. Dies ist wie ein Programmierer, der beim Schreiben von Code feststellt, dass er eine nicht existierende Funktion benötigt, und zunächst die Funktion schreibt, bevor er mit dem Code weiterarbeitet.

Dieser Weg stammt von einem gemeinsamen Team der UC Berkeley und der EPFL. Im Dezember 2025 veröffentlichten Xu Huang, Junwu Chen und andere CASCADE (Cumulative Agentic Skill Creation through Autonomous Development and Evolution).

CASCADE hat einen anderen Ausgangspunkt. Die Tools, die in der Wissenschaft verwendet werden, wie Materialsimulationssoftware, chemische Rechenpakete und maschinelles Lernpotenzial, sind äußerst spezialisiert. Ihre Anwendungsdokumentationen sind verteilt und die Versionen in Chaos. Selbst menschliche Wissenschaftler brauchen oft mehrere Tage, um eine neue Software zum Laufen zu bringen. Deshalb reicht es für Agenten nicht, "frei zu erkunden" oder "aus Scheitern zu lernen", denn sie müssen zuerst verstehen, wie diese Tools funktionieren.

Die Lösung von CASCADE besteht darin, dem Agenten zwei Meta - Skills (Fähigkeiten zum Erlernen von Skills) zu geben. Der erste ist das kontinuierliche Lernen. Wenn der Agent ein Tool nicht kennt, sucht er selbst in Dokumentationen, extrahiert Codebeispiele aus Webseiten und liest Quellcode, um die Verwendung zu verstehen. Der zweite ist die Selbstreflexion. Wenn eine Ausführung fehlschlägt, überprüft der Agent nicht einfach erneut, sondern untersucht den Laufzeitzustand, verfolgt Abhängigkeiten mit einem Wissensgraph und liest sogar den Quellcode von Basisbibliotheken, um die Ursache des Problems zu finden.

Diese beiden Meta - Skills sind keine fest codierten Abläufe, sondern Verhaltensmuster, die durch sorgfältig gestaltete Prompts und Tool - Aufruf - Schnittstellen entstehen.

Die Erfahrungen, die der Agent beim Lösen einer Aufgabe sammelt, werden in das Gedächtnissystem gespeichert, von der kurzfristigen Sitzungs - Gedächtnis bis zum über Sitzungen hinweg konsolidierten Gedächtnis, und schließlich zu einem wiederverwendbaren Skill - Set. Wenn er später ähnliche Tools oder Probleme begegnet, ruft er einfach die vorhandenen Erfahrungen auf.

Im SciSkillBench (116 Aufgaben aus der Materialwissenschaft und Chemie) erreichte GPT - 5 ohne CASCADE eine Erfolgsrate von 35,4 %. Mit dem Evolutionsmechanismus von CASCADE stieg diese auf 93,3 %. Noch bemerkenswerter ist, dass CASCADE die in veröffentlichten Artikeln beschriebenen Rechenexperimente reproduzieren konnte und auch den automatisierten Syntheseprozess in einem echten Labor steuern konnte.

Dazu musste es ein internes Softwarepaket steuern, das es nie gesehen, dessen Dokumentation es nicht hatte und das nicht in den Trainingsdaten enthalten war.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。