3.3k Sterne in einer Woche: Microsoft startet Selbstentwicklung von Skills und trainiert Fähigkeiten wie neuronales Netzwerk

Befreien Sie sich von Ihren Händen und entwickeln Sie sich selbst.

Von den Prompts großer Modelle zu den Skills von Agenten: Es scheint eine Evolution, aber nicht ganz.

In Anwendungen von Agenten beginnen immer mehr Programmierer, viel Zeit damit zu verbringen, CLAUDE.md, Codex-Skill-Dateien und system prompts für verschiedene Agenten zu schreiben.

Das manuelle Schreiben dieser Skill-Dokumente ist im Wesentlichen eine Fehlersuche per Hand. Man schreibt eine Version, führt einige Aufgaben aus, um die Ergebnisse zu sehen. Wenn etwas nicht stimmt, wird es korrigiert, und dann wird es erneut getestet. Dieser Prozess unterscheidet sich im Wesentlichen nicht von der manuellen Anpassung von Prompts, nur dass das Objekt von einem Satz zu einer ganzen Dokumentation geworden ist.

Dies ist eigentlich ziemlich absurd. Wir wollten eigentlich, dass intelligente KI uns bei der Arbeit hilft, aber jetzt verbringen wir stattdessen viel Energie damit, der KI beizubringen, wie sie arbeiten soll.

Dieses Problem scheint nun ein Ende zu haben. Microsoft hat in dieser Woche SkillOpt, ein Framework zur Optimierung des Textraums, das die Skill-Dokumente von Agenten als "trainierbare Parameter" behandelt, open source gemacht, um die Skill-Dokumente selbst zu verbessern.

Offizielle Website: https://microsoft.github.io/SkillOpt/#idea
Github-Link: https://github.com/microsoft/SkillOpt
Paper-Link: https://arxiv.org/abs/2605.23904

Der Kerngedanke ist sehr einfach: Man trainiert nicht die Modellgewichte, sondern nur die natürliche Sprachdokumentation, die das Verhalten des Agenten steuert. In allen 52 Bewertungs-Kombinationen von 7 Zielmodellen, 6 Benchmarks und 3 Ausführungsumgebungen (direkter Dialog, Codex, Claude Code) erreichte die von SkillOpt trainierte Skill-Dokumentation immer die beste oder gleichbeste Leistung.

Skills können auch optimiert und trainiert werden

Die zentrale Erkenntnis von SkillOpt lässt sich in einem Satz zusammenfassen: Die Skill-Dokumentation eines Agenten ist seine "externe Gewichtung". Wenn interne Gewichtungen mit Gradientenabstieg optimiert werden können, sollte es auch ein systematisches Trainingsverfahren für externe Gewichtungen geben.

SkillOpt-Prozess. Das gefrorene Zielmodell führt die aktuelle Skill aus; das Optimierungsmodell schlägt begrenzte Änderungen vor; die reservierte Validierung entscheidet, ob der Kandidat zur neuen aktuellen Skill wird.

Trainingszyklus: Vorwärts- und Rückwärtspropagation, Parameteraktualisierung

Der Trainingszyklus in der traditionellen Deep Learning besteht darin, im Vorwärtsdurchlauf den Verlust zu berechnen, im Rückwärtsdurchlauf die Gradienten zu berechnen und die Gewichte mit den Gradienten zu aktualisieren. SkillOpt überträgt dieselbe Logik in den Textraum:

Rollout (Vorwärtspropagation): Das gefrorene Zielmodell führt eine Reihe von Aufgaben mit der aktuellen Version der Skill-Dokumentation aus und protokolliert die vollständigen Ausführungsverläufe, einschließlich Nachrichten, Tool-Aufrufen, Validierungsrückmeldungen und endgültigen Punkten. Dies entspricht dem Ergebnis der Vorwärtspropagation in einem neuronalen Netz.
Reflect (Rückwärtspropagation): Ein unabhängiges Optimierungsmodell analysiert diese Ausführungsverläufe. Der Schlüsseldesign ist, dass fehlgeschlagene und erfolgreiche Fälle getrennt betrachtet werden. Die fehlgeschlagenen Minibatches werden verwendet, um zu ermitteln, "welche Betriebsregeln korrigiert werden müssen", und die erfolgreichen Minibatches werden verwendet, um zu bestätigen, "welche bestehenden Regeln funktionieren und nicht verändert werden dürfen". Dies entspricht der Berechnung des "Gradienten im Textraum" und gibt dem System an, in welche Richtung die Skill-Dokumentation geändert werden soll.
Edit (Parameteraktualisierung): Das Optimierungsmodell schlägt basierend auf den Ergebnissen der Betrachtung strukturierte Bearbeitungsoperationen für die Skill-Dokumentation vor: Hinzufügen neuer Regeln (add), Löschen ungültiger Regeln (delete), Ersetzen von Regeln, die korrigiert werden müssen (replace).
Gate (Validierungssteuerung): Die Kandidaten für die neue Skill-Dokumentation müssen auf einem reservierten Validierungssatz getestet werden und werden nur akzeptiert, wenn die Leistung streng verbessert wird. Dies verhindert Überanpassung und stellt sicher, dass jede Aktualisierung eine echte Verbesserung darstellt.

Der gesamte Zyklus wird über mehrere Epochen ausgeführt, wobei jede Epoche mehrere Schritte umfasst. Dies entspricht genau dem Rhythmus des Trainings eines neuronalen Netzes.

Textuelle Lernrate: Vermeidung von katastrophischem Vergessen

Beim Training eines neuronalen Netzes kann eine zu hohe Lernrate zu katastrophischem Vergessen führen, d. h. das Modell vergisst alte Dinge, wenn es neue lernt. SkillOpt trifft im Textraum auf dasselbe Problem: Wenn eine Bearbeitung zu viele Änderungen vornimmt, kann dies die zuvor gelernten effektiven Regeln überschreiben.

Die Lösung besteht darin, eine "textuelle Lernrate" einzuführen: Es gibt eine Obergrenze für die Anzahl der Bearbeitungsoperationen pro Schritt. In der Studie ist die Standardeinstellung lr = 4, d. h. maximal 4 add/delete/replace-Operationen pro Schritt. Diese Beschränkung zwingt den Optimierer, nur kleine Anpassungen vorzunehmen und sorgt so für eine stabile Trainingsphase.

Ablationsversuche haben die Notwendigkeit dieses Designs bestätigt: Ohne die Lernratenbeschränkung sank die Leistung auf SearchQA von 87,1 % auf 84,6 %, auf SpreadsheetBench von 77,5 % auf 75,7 % und auf LiveMath von 61,3 % auf 57,3 %.

Puffer für abgelehnte Bearbeitungen: Negatives Feedback-Memory

Ein weiteres raffiniertes Design ist der rejected-edit buffer. Wenn ein Bearbeitungsvorschlag von der Validierungssteuerung abgelehnt wird, wird er nicht einfach verworfen, sondern in einen Puffer gelegt. Der Optimierer kann in späteren Betrachtungsphasen diese "fehlgeschlagenen Versuche" sehen und vermeidet so, ähnliche ineffektive Bearbeitungen erneut vorzuschlagen.

Dies entspricht der Bereitstellung von negativen Gradienteninformationen für den Optimierer: Er weiß nicht nur, wohin er gehen soll, sondern auch, welche Richtungen bereits als erfolglos befunden wurden.

Ablationsversuche haben ebenfalls den Wert dieses Designs bestätigt: Ohne den rejected buffer sank die Leistung auf SpreadsheetBench von 77,5 % auf 72,9 %.

Langsame Aktualisierung und Metaskills: Langzeitgedächtnis-Mechanismus

SkillOpt hat auch zwei über Epochen hinweg funktionierende Gedächtnis-Mechanismen eingeführt:

Slow Update: Am Ende jeder Epoche wird eine vertikale Vergleichsanalyse aller akzeptierten Bearbeitungen in dieser Epoche durchgeführt, um konsistente Muster über die Schritte hinweg zu finden und eine größere Aktualisierung vorzunehmen. Dies ähnelt der Lernraten-Warmup-Phase oder periodischen großen Schritten in der Deep Learning.
Meta Skill: Der Optimierer hat selbst eine "Metaskill"-Dokumentation, in der die Erfahrungen, die er im Optimierungsprozess gesammelt hat (z. B. "Für diesen Benchmark ist es effektiver, sich auf das Format der Tool-Aufrufe zu konzentrieren als auf die Schritte der Inferenz"), aufgezeichnet sind. Diese Metaskill wird über die Epochen hinweg kontinuierlich aktualisiert, so dass sich der Optimierer selbst verbessert.

Wichtig ist, dass diese beiden Mechanismen nur während des Trainings existieren. Bei der Bereitstellung benötigt das Zielmodell nur die endgültige best_skill.md-Datei und keine zusätzlichen Modellaufrufe oder Gedächtnismodule. Die Infernz-Kosten sind null.

Überlegenheit in 52 Bewertungen

Hauptexperiment: 7 Modelle × 6 Benchmarks × 3 Umgebungen

Die Bewertung von SkillOpt ist ziemlich umfassend:

Die Zielmodelle umfassen GPT-5.5, GPT-5.4, GPT-5.4-mini, GPT-5.4-nano, GPT-5.2, Qwen3.5-4B, Qwen3.6-35B-A3B, von den stärksten closed-source-Modellen bis hin zu kleinen Modellen mit 4 Milliarden Parametern.

Die Benchmarks decken 6 verschiedene Arten von Aufgaben ab: SearchQA (Frage-Antwort), SpreadsheetBench (Codegenerierung / Tabellenkalkulation), OfficeQA (Tool-unterstützte Frage-Antwort), DocVQA (Visuelle Frage-Antwort zu Dokumenten), LiveMathematicianBench (Mathematische Inferenz), ALFWorld (Embodied Agent).

Die Ausführungsumgebungen umfassen drei gängige Agent-Ausführungs-Frameworks: direkter Dialog, OpenAI Codex, Anthropic Claude Code.

In allen 52 (Modell × Benchmark × Umgebung)-Bewertungskombinationen erreichte SkillOpt die beste oder gleichbeste Leistung.

Einige auffällige Daten:

GPT-5.5 im direkten Dialogmodus: Durchschnittliche Verbesserung von + 23,5 Punkten, wobei SpreadsheetBench um 38,9 Punkte und OfficeQA um 39,0 Punkte verbessert wurde.
GPT-5.4-nano (kleinstes Modell): Durchschnittliche Verbesserung von + 24,9 Punkten, DocVQA um 49,4 Punkte und ALFWorld um 35,1 Punkte verbessert.
GPT-5.5 + Codex-Umgebung: SpreadsheetBench um 57,5 Punkte verbessert.
GPT-5.5 + Claude Code-Umgebung: SpreadsheetBench um 58,3 Punkte verbessert.

Die Verbesserung kleinerer Modelle war sogar größer, was zeigt, dass die Skill-Dokumentation für schwächere Modelle nützlicher ist. Eine gute Bedienungsanleitung ist für Anfänger viel wertvoller als für Experten, und dieselbe Intuition gilt auch für AI-Agenten.

Vergleichsexperiment: Überlegenheit gegenüber allen Basismethoden

SkillOpt wurde mit 6 Basismethoden verglichen: keine Skills (no skill), manuell geschriebene Skills (human skill), von LLM einmalig generierte Skills (LLM skill), Trace2Skill, TextGrad, GEPA.

Bei jedem Benchmark übertraf SkillOpt die stärkste Basismethode:

SearchQA: Übertrifft die stärkste Basismethode um + 1,9 Punkte
SpreadsheetBench: Übertrifft die stärkste Basismethode um + 4,4 Punkte
OfficeQA: Übertrifft die stärkste Basismethode um + 4,1 Punkte
DocVQA: Übertrifft die stärkste Basismethode um + 1,7 Punkte
LiveMath: Übertrifft die stärkste Basismethode um + 9,2 Punkte
ALFWorld: Übertrifft die stärkste Basismethode um + 8,9 Punkte

Es ist bemerkenswert, dass TextGrad und GEPA bereits existierende Textoptimierungsmethoden sind. Die Überlegenheit von SkillOpt gegenüber diesen Methoden zeigt, dass das systematisierte Trainingszyklus-Design (Lernrate, Validierungssteuerung, negatives Feedback-Puffer) tatsächlich effektiver ist als lose Selbstkorrektur.

Transfer-Experiment: Einmaliges Training, mehrfache Bereitstellung

Die von SkillOpt trainierten Skill-Dokumente zeigen eine starke Transferfähigkeit:

Transfer über Modelle hinweg: Die LiveMath-Skills, die auf GPT-5.4 trainiert wurden, wurden direkt auf GPT-5.4-nano übertragen und bewirkten eine Verbesserung von 15,2 Punkten. Es ist keine Neutrainierung für das kleine Modell erforderlich.
Transfer über Umgebungen hinweg: Die SpreadsheetBench-Skills, die in der Codex-Umgebung trainiert wurden, wurden direkt in die Claude Code-Umgebung übertragen und bewirkten eine Verbesserung von 31,8 Punkten. Dies bedeutet, dass die in einem Agent-Framework optimierten Skill-Dokumente auch in einem anderen Framework wirksam sind.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

3.3k Sterne in einer Woche. Microsoft startet die Selbstentwicklung von Skills und trainiert Fähigkeiten wie ein neuronales Netzwerk.