StartseiteArtikel

Sobald die Menschen ihren Sitz verlassen, entwickelt sich die KI weiter. Die Universität Berkeley hat MetaClaw Open-Source gemacht, und die statischen Agenten sind besorgt.

新智元2026-03-31 08:46
Wird die KI während deiner Besprechung heimlich aktualisiert? Vier Universitäten, darunter die Universität Berkeley, haben MetaClaw Open Source gemacht, damit Agenten während deiner Besprechungen, Pausen oder Schlafzeiten kontinuierlich evolvieren können, was die branchenweite Regel "Einsatz gleich Einfrieren" direkt bricht.

Es ist wieder Zeit für die wöchentliche Sitzung.

Auf dem Desktop-Kalender Ihres Computers steht „Wochenbesprechung 14:00 - 15:30“, und der Bildschirm ist gesperrt.

Zur gleichen Zeit bestätigt ein Hintergrund-AI-Prozess, dass Sie vorerst nicht zurückkehren werden, und startet automatisch ein Trainingsfenster:

Die Fehler, die Sie am Vormittag gemacht haben, werden in Regeln zerlegt und in die System-Hinweiswörter eingefügt. Anschließend beginnt die Cloud-LoRA-Feinabstimmung.

90 Minuten später, als Sie nach der Sitzung an Ihren Arbeitsplatz zurückkehren, hat der Agent vor Ihnen eine Selbstiteration abgeschlossen.

Dies ist die Funktion, die das Open-Source-MetaClaw-Framework ermöglicht:

Ein bereits online dienender Agent kann kontinuierlich aus Fehlern lernen und sich entwickeln, ohne den Service zu unterbrechen.

Diese Forschung bricht die Standardregel der Agent-Industrie, dass ein Agent nach der Veröffentlichung unveränderlich bleibt.

Das MetaClaw-Framework wurde von der University of North Carolina at Chapel Hill, der Carnegie Mellon University, der University of California, Santa Cruz und der University of California, Berkeley gemeinsam entwickelt.

https://arxiv.org/pdf/2603.17187

Open Source, sofort an der Spitze.

Sobald MetaClaw veröffentlicht wurde, belegte es die Spitzenplätze auf HuggingFace. Die Idee des „kontinuierlichen Agentenwachstums“, die es repräsentiert, hat die Aufmerksamkeit von AI-Forschern und -Entwicklern weltweit erregt.

Das, was am besten die Reife seiner Toolchain widerspiegelt, ist seine extrem niedrige Implementierungsschwelle.

Die in der offiziellen Repository gezeigten Konsolenbefehle zeigen, dass der umfangreiche „Schnell- und Langsamzyklus“-Mechanismus und der OMLS-Scheduler auf zwei Befehle reduziert wurden.

Entwickler müssen nur „metaclaw setup“ eingeben, um die einmalige Konfiguration abzuschließen, und dann „metaclaw start --daemon“. Das System wird dann als Hintergrundprozess im Stillen gestartet.

Diese Plug-and-Play-Kapselung bricht die Barriere zwischen akademischen Modellen und praktischer Umsetzung.

Die strukturelle Schwierigkeit des Agenten, „nach der Veröffentlichung unveränderlich zu bleiben“, überwinden

Die meisten Agenten stehen derzeit vor der schwierigen Situation, dass sie einmal trainiert, dann veröffentlicht und langfristig unverändert bleiben.

Aber die reale Welt ändert sich ständig: Die Aufgabenanforderungen wandern, die Arbeitsabläufe werden geändert, und die Toolchain und die Organisationsregeln werden ständig aktualisiert.

Auf Plattformen wie OpenClaw muss ein Agent möglicherweise gleichzeitig mit über 20 Nachrichtenkanälen verbunden sein.

Die Aufgabenverteilung ändert sich stündlich, aber die Fähigkeiten des Agenten bleiben auf dem Stand der Fertigstellung.

Anscheinend gibt es in der Branche bereits viele Lösungen, wie das Aufzeichnen von Trajektorien, das Aufbauen einer statischen Fähigkeitsbibliothek oder das Online-Stärkungslernen.

Aber diese Lösungen lösen oft nur teilweise die Probleme:

Das Speichern von Rohdaten ohne die Extraktion von übertragbaren Wissen führt zu langwierigen und fragmentierten Informationen;

Die statische Fähigkeitsbibliothek und die Gewichtsoptimierung sind voneinander getrennt;

Das Neutrainieren eines Agenten bedeutet normalerweise, dass der Service unterbrochen werden muss, so dass es unmöglich ist, Online-Service und kontinuierliche Entwicklung gleichzeitig zu erreichen.

Dies ist das reale Dilemma, vor dem sich „statische Agenten“ befinden: Sie müssen 24 Stunden am Tag online sein, aber die Welt, der sie gegenüberstehen, ändert sich ständig.

Agenten, die sich nicht an die neue Aufgabenverteilung anpassen können, erscheinen auch mit starken anfänglichen Fähigkeiten in der langfristigen praktischen Anwendung oft starr.

Zwei Beine gehen

Schnelle Anpassung und langsame Entwicklung

Um den Konflikt zwischen „Unterbrechungsfreiheit“ und „kontinuierlicher Entwicklung“ zu überwinden, teilt MetaClaw den Update-Mechanismus in zwei Kreise mit völlig unterschiedlichen Zeitmaßstäben auf.

Das Systemarchitekturdiagramm von MetaClaw zeigt den „Schnell- und Langsamzyklus“-Lernmechanismus. Links wird gezeigt, wie der OMLS-Scheduler den Google-Kalender und den Leerlaufzustand von Tastatur und Maus des Benutzers überwacht. Rechts wird gezeigt, wie das System die Supportmenge und die Abfragemenge trennt und Fähigkeitsextraktion (schnelle Anpassung) und LoRA-Gewichtsfeinabstimmung (langsame Entwicklung) durchführt.

Der erste Weg ist die fahigkeitsgetriebene schnelle Anpassung (Skill-driven fast adaptation).

Wenn der Agent bei einer Aufgabe scheitert, übergibt das System die fehlerhafte Trajektorie an ein anderes großes Modell zur Analyse. Daraus werden wiederverwendbare Verhaltensregeln extrahiert und sofort in die System-Hinweiswörter eingefügt.

Dieser Prozess ändert die Modellgewichte nicht, unterbricht den Service nicht und tritt sofort in Kraft.

In der Studie werden typische Hochfrequenzregeln aufgeführt: Einheitliche Zeitformate, Sicherung vor der Ausführung von hochrisikoreichen Dateioperationen, strikte Einhaltung von Benennungskonventionen.

Wichtiger ist, dass diese Regeln keine Patches für einzelne Aufgaben sind, sondern übertragbares Wissen über Aufgaben hinweg.

Eine Korrektur des Zeitformats kann die Stabilität aller nachfolgenden Aufgaben, die Zeitverarbeitung betreffen, verbessern.

Der zweite Weg ist die opportunistische Strategieoptimierung (Opportunistic policy optimization).

Wenn der Benutzer inaktiv ist, aktualisiert das System die Gewichte basierend auf Gradienten-Stärkungslernen (RL) unter Verwendung des Prozess-Reward-Modells (PRM) und LoRA.

Das erste ist wie ein schnelles Stoppen des Blutflusses in taktischer Hinsicht, das zweite ist die strategische Festigung der Fähigkeiten.

Um diese beiden Aspekte organisch zu verbinden, führt MetaClaw ein Kernkonzept ein: Die Trennung von Supportmenge und Abfragemenge sowie die strikte Versionierung von Fähigkeiten.

Wenn eine fehlerhafte Probe bereits durch eine neu extrahierte Regel behoben wurde, führt die weitere Verwendung dieser Probe in der Stärkungslernphase zu „veralteter Belohnungskontamination“ (stale reward contamination): Das Modell wird weiterhin für ein bereits gelöstes Problem bestraft.

MetaClaw markiert die Trajektorien mit einer Fähigkeitsversionsnummer. Nach der Aktualisierung der Fähigkeitsbibliothek werden die inaktiven Proben der alten Versionen gelöscht, und nur die Daten nach der Geltung der neuen Fähigkeiten werden in das RL-Training aufgenommen.

Dies bedeutet im Wesentlichen die wirkliche Einheit von „Gedächtnis“ und „Entwicklung“.

Mit Fragmentzeiten trainieren

OMLS-Scheduler

Das Modelltraining erfordert Zeit und Rechenleistung. Wie kann MetaClaw es ermöglichen, dass der Benutzer dies fast nicht bemerkt?

Die Antwort liegt in dem entworfenen opportunistischen Meta-Lern-Scheduler (OMLS).

Der OMLS überwacht speziell drei Arten von Signalen: die voreingestellten Schlafzeiten, den Leerlaufzustand von Tastatur und Maus auf Systemebene und die Belegung des Google-Kalenders.

Sobald eines der Signale, die anzeigen, dass der Benutzer vorerst weg ist, ausgelöst wird, öffnet sich automatisch das Trainingsfenster.

Der Trainer unterstützt das Pausieren und Fortsetzen jederzeit. Dies bedeutet, dass selbst die kurzen Zeiträume, in denen der Benutzer weg ist, in Zeitfenster für das kontinuierliche Training der KI umgewandelt werden können.

In der Vergangenheit war die Aktualisierung von KI oft ein zentralisiertes Projekt, das das Anhalten des Services, das Neutrainieren, das Umschalten der Version und das erneute Starten erforderte.

MetaClaw verwandelt die fragmentierten Freizeiten der Menschen in eine Miniwerkstatt für die kontinuierliche Entwicklung der KI.

Darüber hinaus verwendet dieses Framework eine Proxy-Architektur und eine Cloud-Trainingsschnittstelle. Es erfordert keine teuren lokalen GPU-Rechenressourcen und kann direkt mit bestehenden persönlichen Agenten und verschiedenen Modellplattformen verbunden werden. Es unterstützt die Ein-Klick-Bereitstellung und das kontinuierliche Meta-Lernen.

Prozesswissen ergänzen

Datensprung schwacher Modelle

Die praktische Wirksamkeit dieses Frameworks wird direkt in den Testdaten bestätigt.

Das Studien-Team hat das MetaClaw-Bench-Benchmark erstellt, das 934 Aufgaben enthält und den Arbeitsablauf von 44 Arbeitstagen simuliert. Es dient speziell dazu, zu bewerten, ob ein Agent in einem kontinuierlichen Arbeitsablauf immer stärker wird.

Die Testergebnisse zeigen, dass die relative Genauigkeit des getesteten Modells bei reinem Verhaltensregel-Einsatz um bis zu 32,2 % steigen kann.

In Bezug auf die End-to-End-Aufgabenabschlussrate, die die reale Ausführungsfähigkeit widerspiegelt, steigt die getestete Rate des Modells von 2,0 % auf 16,5 %, was einer 8,25-fachen Zunahme entspricht.

In einer anderen AutoResearchClaw-Selbstforschungspipeline mit 23 Phasen (einschließlich Literaturübersicht, Experimentdesign, Codegenerierung, Ergebnisanalyse bis hin zur Artikelschreibung) steigt die Gesamtrobustheit des Systems selbst ohne Gewichtstraining, sondern nur durch Fähigkeitseinsatz, um 18,3 %. Die Phasen-Wiederholungsrate sinkt um 24,8 %, und die Anzahl der Iterationsoptimierungen wird um 40 % reduziert.

Die Testdaten offenbaren ein noch entscheidenderes Phänomen: MetaClaw ist zunächst ein Framework für die kontinuierliche Entwicklung von Agenten, und es hat besonders starke Auswirkungen auf Agenten, die von schwachen Basis-Modellen angetrieben werden.

Die Analyse in der Studie zeigt, dass schwächere Modelle an implizitem Prozesswissen fehlen: Das sind die konkreten Handlungsregeln, Ausführungsgewohnheiten und Formatdisziplinen. Die Fähigkeitsbibliothek schreibt dieses Wissen explizit auf, so dass bereits der Skill-Einsatz eine größere Genauigkeitssteigerung bewirken kann.

Im Vergleich dazu hat GPT-5.2 aufgrund eines höheren Ausgangspunktes weniger Verbesserungspotenzial und ist leichter einer Sättigungswirkung ausgesetzt.

Aber die Studie betont auch, dass der Skill-Einsatz hauptsächlich die Regelerfüllung und die Qualität der Ausführung verbessert, aber nicht ausreicht, um die End-to-End-Aufgabenabschlussrate in anspruchsvollen Aufgaben stabil zu unlocken.

Was tatsächlich die 8,25-fache Zunahme des getesteten Modells bewirkt hat, ist das vollständige MetaClaw-Framework, das die Skills und die Gewichtsstrategieoptimierung kombiniert.

Paradigmenwechsel in der Agentenentwicklung

Natürlich hat MetaClaw noch gewisse Grenzen.

Das Studien-Team weist darauf hin, dass die aktuellen Benchmarks in einer Simulationsumgebung durchgeführt werden und nicht vollständig der komplexen Produktionsumgebung entsprechen; die Erkennung der Leerlaufzeitfenster hängt auch von der spezifischen Benutzer-Systemkonfiguration ab.

Aber MetaClaw zeigt eindeutig in Richtung eines Paradigmenwechsels: Der Lebenszyklus von Agenten entwickelt sich von „Nach dem Training ausliefern“ zu „Nach der Auslieferung weiter wachsen“.

Die kontinuierliche Aktualisierung des GitHub-Repositorys (einschließlich Proxy-Zugang, Unterstützung mehrerer Clients, Über-Sitzungs-Gedächtnis und andere technische Fortschritte) zeigt, dass diese Idee schnell in eine einsatzfähige Toolchain umgewandelt wird.

Betrachtet man es in der Branchenperspektive, wird es noch bedeutender.

Im Vergleich zu OpenClaw-RL, das von einem Princeton-Team kürzlich vorgeschlagen wurde (das tendiert dazu, alle Interaktionssignale direkt für das Training zu verwenden), wählt MetaClaw eine hierarchische Strategie von „schnellen Regeln und langsamen Gewichten“.