Ernsthaft: Wie viel Skill können wir tatsächlich extrahieren?

Die Destillation endet nicht bei Skill, sie hat erst begonnen.

In einer Woche Ende März tauchten auf GitHub Trending gleichzeitig fünf oder sechs Projekte auf. Ihre Namen waren umso abstruser.

Das Projekt "Kollegen-Skill" gibt Claude die Feishu-Nachrichten, DingTalk-Dokumente, Slack-Aufzeichnungen und WeChat-Chats von ehemaligen Kollegen, um automatisch eine Skill-Datei zu generieren. Nach der Installation kann die KI "zum" Kollegen werden. Sie übernimmt nicht nur die Arbeit des Kollegen, sondern spricht auch in dessen Tonfall.

Dieses Projekt erhielt binnen einer Woche 9.500 Sterne. Einige Kommentatoren sagten: "Empfehle, den Namen in 'Kollegen-Kill' zu ändern. Wenn man zum Skill wird, kann man dann 'getötet' werden."

Nachdem dieses Projekt populär geworden war, entstand in der Community eine "Destillations"-Welle.

01 Alles kann destilliert werden

Das Projekt exskill destilliert Ex-PartnerInnen zu Skills. Es unterstützt WeChat-Chatverläufe, QQ-Nachrichten, Screenshots aus sozialen Medien und sogar EXIF-Daten (Exchangeable Image File Format) von Fotos. Darüber hinaus wurde eine fünfstufige Persönlichkeitsstruktur aufgebaut.

Die "Boss-Skills" sind noch nützlicher. Sie bestehen aus drei Modulen. "Boss Judgment" beurteilt Projekte nach den Standards des Vorgesetzten, "Managing Up" lehrt, wie man schlechte Nachrichten meldet, und "Persona" reproduziert den Sprechstil des Vorgesetzten.

Es enthält auch Vorlagen von Prominenten wie Elon Musk, Steve Jobs und Jensen Huang.

Der Höhepunkt dieser Destillation ist der "Nüwa-Skill". Er verwendet sechs parallele Agenten (Intelligente Agenten), um das Mentalmodel von öffentlichen Persönlichkeiten aus über 40 Informationsquellen zu extrahieren und direkt zu destillieren. Es sind bereits 13 Personen wie Paul Graham, Charlie Munger und Richard Feynman integriert.

Wir scheinen nun in eine Zeit gekommen zu sein, in der jeder zu einem Skill destilliert werden kann.

Zur gleichen Zeit veröffentlichte die Carnegie Mellon University (CMU) eine Studie mit dem Titel "SKILLFOUNDRY: Building Self-Evolving Agent Skill Libraries from Heterogeneous Scientific Resources".

Der sechsstufige selbstentwickelnde Prozess von SkillFoundry (Quelle: Abbildung 1 in der SkillFoundry-Studie)

Obwohl es sich um eine akademische Studie handelt, geht es hier ebenfalls um Destillation. Nur wird nicht der Mensch, sondern das Wissen aus dem gesamten wissenschaftlichen Bereich destilliert.

Das Konzept von Skill Foundry besteht darin, GitHub-Repositories, API-Dokumentationen, Jupyter Notebooks und wissenschaftliche Studien zu durchsuchen, um automatisiert strukturierte Agent-Skills zu extrahieren.

Nach nur einem Durchlauf des Prozesses wurden 286 Skills in 27 Bereichen entdeckt. 71,1 % davon sind neue Fähigkeiten, die in den bestehenden Skill-Bibliotheken nicht vorhanden sind.

Beim Zelltyp-Kennzeichnungsaufgabe in der Genomik stieg die Abdeckung von 81,1 % auf 99,2 % und die Genauigkeit von 68,5 % auf 82,9 % nach der Integration von Skills.

Einerseits gibt es die "Künstliche Mentaldestillation" in der Community, andererseits die "Wissensveredelung" von Spitzenteams. Beide versuchen jedoch, die gleiche Überzeugung zu bestätigen: Wenn Erfahrungen in Worte gefasst werden können, kann die KI sie über Skills lernen.

Aber niemand möchte destilliert werden.

In derselben Woche erschien auf GitHub ein weiteres Projekt namens "anti-distill" (Anti-Destillation).

Dieses Tool hilft Benutzern, eine Skill-Datei zu generieren, die zwar vollständig aussieht, aber an Kernwissen entleert ist. Durch diesen Skill werden die spezifischen Codierungsregeln und -methoden in "Die Cache-Nutzung folgt den Teamrichtlinien" umgewandelt.

Technisch gesehen ist dies korrekt, aber es handelt sich um leere, richtige Äußerungen ohne Inhalt.

Die Existenz von anti-distill deutet auf ein Problem hin.

Wenn Skills wirklich alle Fähigkeiten einer Person destillieren können, sollte es schwierig sein, sie direkt zu neutralisieren. Aber anti-distill scheint dies ohne Mühe zu schaffen.

Vielleicht wird nicht die "Person", sondern eine bestimmte Schicht entleert.

Hinter diesem liegt ein Problem, das es zu untersuchen gilt.

Wie viel von uns können Skills tatsächlich destillieren? Was ist diese entleerbare Schicht und was ist die, die nicht entleert werden kann?

02 Ein merkwürdiges Phänomen

Ende Februar 2026 veröffentlichten Xiangyi Li und andere vom BenchFlow-Team die erste umfassende Evaluierung von Skills über verschiedene Bereiche hinweg, mit dem Titel "SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks". Sie deckte 84 Aufgaben und 11 Bereiche ab und führte 7.308 Testläufe durch.

Insgesamt stieg die Durchfallquote von Agent-Aufgaben um 16,2 Prozentpunkte nach der Integration von Skills. Es scheint also, dass Skills wirklich sehr effektiv sind.

Aber wenn man die Zahlen genauer betrachtet, ergeben sich einige interessante Phänomene.

Unter allen Skills war die Verbesserung im Bereich Gesundheitswesen am signifikantesten, mit einem Anstieg von 51,9 Prozentpunkten, von 1,0 % auf 51,9 %.

Im Bereich Softwareentwicklung stieg die Leistung nur um 4,5 Prozentpunkte.

Bei demselben Skill-Mechanismus und demselben Modell gab es einen Unterschied von einem Faktor zehn in der Effektivität zwischen verschiedenen Bereichen.

Die Effektivität von Skills nach Bereichen in SkillsBench (Quelle: Tabelle 4 in der SkillsBench-Studie)

Es gibt noch weitere überraschende Entdeckungen.

Die Forscher teilten die Skills nach ihrer Detailtiefe in vier Stufen ein. SkillsBench hat die Skills ebenfalls nach der Detailtiefe ihrer Dokumentation in vier Stufen eingeteilt.

Die Originaldaten aus der SkillsBench-Studie (Quelle: Tabelle 6)

Skills der Stufe "Detailed" (detailliert), also Skills mit Schritten, Beispielen und Fokus auf konkrete Aktionen, erhöhten die Durchfallquote um 18,8 Prozentpunkte.

Aber Skills der Stufe "Comprehensive" (umfassend), die versuchen, alle Randbedingungen abzudecken, senkten die Durchfallquote um 2,9 Prozentpunkte.

Dies zeigt, dass umfassendere Skills nicht unbedingt bessere Ergebnisse erzielen.

Zur gleichen Zeit führten Han, Zhang und andere spezifische Tests im Bereich Softwareentwicklung durch und veröffentlichten die Studie "SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?". Sie testeten 49 Skills aus echten Open-Source-Projekten, etwa 565 Aufgabeninstanzen.

39 Skills (etwa 80 %) verbesserten die Durchfallquote nicht.

Nur sieben Skills hatten einen deutlichen positiven Effekt. Beispielsweise erhöhte der Skill "risk-metrics-calculation" die Leistung um 30 %, da er eine spezifische Formel zur Berechnung von Finanzrisiken codiert.

Drei Skills hatten sogar einen negativen Effekt.

Die vollständige Bewertung von 49 Skills in SWE-Skills-Bench (Quelle: Tabelle 2 in der Studie)

Der Misserfolg des Skills "linkerd-patterns" ist besonders lehrreich. Dieser Skill packt sieben Konfigurationsvorlagen von Linkerd zusammen. Obwohl der Inhalt objektiv korrekt ist, war das Modell zu stark an die Vorlagen gebunden.

Das Modell schrieb zunächst Code nach einer veralteten API-Version. Dann erfand es beim Abgleichen von Vorlage und Aufgabenanforderungen nicht existierende Felder.

Schließlich veranlassten die Beispiele in der Vorlage das Modell, völlig irrelevante Ressourcen hinzuzufügen.

Alle drei Misserfolge traten auf, weil das Modell seine eigene Urteilsfähigkeit aufgab und stattdessen blind den konkreten Beispielen im Skill folgte.

Die obigen Daten zeigen deutlich, dass Skills nicht einfach dadurch nützlich werden, dass man sie schreibt.

Sie sind in einigen Aufgaben äußerst effektiv, in anderen Aufgaben jedoch völlig nutzlos und in wenigen Fällen sogar schädlich. Diese Unterschiede scheinen nicht zufällig zu sein, sondern es scheint, dass es eine Struktur dahinter gibt.

Um diese Struktur zu verstehen, muss man zunächst verstehen, was ein Skill eigentlich ist.

03 Was ist ein Skill?

Viele Menschen verstehen Skills als "erweiterte Prompts" (Hinweise). Man schreibt einfach eine strukturierte Anweisung, die der KI sagt, was sie bei einer bestimmten Art von Problem tun soll.

Wenn es nur darum ginge, gäbe es keinen wesentlichen Unterschied zwischen einem Skill und einem sorgfältig formulierten Systemprompt.

Aber stimmt das wirklich?

Anfang 2026 veröffentlichte die Zhejiang-Universität eine systematische Studie namens "Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward", in der ein offizieller Definition für Skills gegeben wurde.

Nach ihrer Analyse besteht ein Skill aus vier Teilen: S = (C, π, T, R).

C ist die Anwendungsbedingung, d. h. wann der Skill ausgelöst werden soll. Es geht nicht einfach darum, dass der Benutzer ein bestimmtes Schlüsselwort sagt, sondern es erfolgt eine automatische Anpassung anhand der semantischen Merkmale der Aufgabe. π ist die Ausführungsstrategie, d. h. die konkreten Handlungsschritte und die Entscheidungslogik. T ist die Abbruchbedingung, die bestimmt, wann gestoppt werden soll. R ist die wiederverwendbare Schnittstelle. Andere Skills oder Agenten können über diese Schnittstelle auf ihn zugreifen.

Die dreistufige fortschreitende Ladearchitektur von Skills (Quelle: Abbildung 1 in der SoK-Studie)

Die zwei wichtigsten Begriffe in dieser Definition sind "kombinierbar" und "weiterleitbar".

"Weiterleitbar" bedeutet, dass das Modell bei einer Aufgabe automatisch den passenden Skill anhand der semantischen Merkmale auswählt, ohne dass der Benutzer es manuell tun muss.

"Kombinierbar" bedeutet, dass ein Skill Teilaufgaben an andere Skills delegieren kann. Die Daten von SkillsBench zeigen, dass die Zusammenarbeit von zwei bis drei Skills am effektivsten ist, mit einer Steigerung der Durchfallquote um 18,6 Prozentpunkte. Bei vier oder mehr Skills steigt die Leistung jedoch nur um 5,9 Prozentpunkte. Dies zeigt, dass die Modularisierung Vorteile bringt, aber es gibt eine optimale Granularität.

Zwei bis drei Skills zusammenarbeiten am effektivsten (Quelle: Tabelle 5 in der SkillsBench-Studie)

Darüber hinaus haben Skills eine dauerhafte Speicherung über mehrere Gespräche hinweg. Sie werden im Dateisystem gespeichert und verschwinden nicht mit dem Ende des Gesprächs. Somit können sie akkumuliert werden. Der 100. Skill kann neben dem ersten Skill existieren und auch auf ihn zugreifen. Dies macht Skills zu einem Wissenswert, das schrittweise aufgebaut werden kann.

Im Gegensatz dazu ist ein Prompt nur einmalig gültig und hat keine Aufrufbeziehungen.

Von diesem Blickwinkel aus gesehen ist ein Skill eher ein Softwaremodul als nur ein

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Ernsthaft gesprochen, wie viel von uns kann Skill eigentlich extrahieren?

01 Alles kann destilliert werden

02 Ein merkwürdiges Phänomen

03 Was ist ein Skill?