Echtes Garnelenzüchten: Hummer in nur 3 Schritten während des Gesprächs mit Reinforcement Learning (ohne GPU und Datensatz) evolvieren lassen

Es kann auch Fähigkeiten automatisch generieren.

Lassen Sie OpenClaw die Arbeit erledigen, und das reicht noch nicht. Jetzt versuchen Programmierer, den Hummer selbst stärker zu machen.

Achtung! Es geht nicht nur um eine punktuelle Verbesserung bei einer bestimmten Aufgabe. Diesmal hat jemand direkt ein ganzes Agentensystem mit einem Online-Stärkungslernsystem MetaClaw ausgestattet –

Es ist nicht erforderlich, eine GPU-Cluster zu verwalten, es gibt keine Notwendigkeit für Datensätze und keine manuelle Feinabstimmung. Lassen Sie die KI einfach im Gespräch mit Ihnen immer klüger werden.

Dieser neue Lernmodus wandelt die täglichen Gespräche zwischen Benutzern und KI direkt in Trainingsdaten um. Der gesamte Lernzyklus wird im Hintergrund abgeschlossen, ohne die normale Nutzung zu beeinträchtigen.

Wir können wie gewohnt mit der KI über alles reden. MetaClaw wird die Interaktionen von OpenClaw stillschweigend abfangen, jedes Gesprächsrunde bewerten und dann die Entscheidungsstrategie der KI durch Online-Feinabstimmung optimieren.

Außerdem lernt es aus Fehlern. Wenn die KI in einem Gespräch daneben liegt, wird MetaClaw automatisch die gesamte Interaktionsspur analysieren, um zu ermitteln, wo das Problem liegt, und dann automatisch eine neue Fähigkeit generieren und in die Fähigkeitsbibliothek speichern.

Beim nächsten Mal, wenn es auf eine ähnliche Schwierigkeit stößt, wird die relevante Fähigkeit präzise gesucht und in das System als Hinweis eingefügt, so dass der gleiche Fehler vermieden wird.

Fähigkeitseingabe + Fähigkeitsentwicklung

Das Modell basiert auf Kimi-2.5 und bietet auch Qwen3-4B als leichte Alternative, die auch auf Geräten mit geringerer Leistung läuft.

Der Kernmechanismus ist das selbst entwickelte SkillRL-Fähigkeitsstärkungslernframework, was im Grunde eine Kombination aus Fähigkeitseingabe + Fähigkeitsentwicklung ist.

Fähigkeitseingabe

Bei jeder Gesprächsrunde werden die relevanten Fähigkeitsanweisungen präzise zugeordnet. Die KI kann ihre Leistung sofort optimieren, ohne bis zum Ende des Trainings zu warten.

Fähigkeitsentwicklung

Die KI wird von der passiven Annahme von Anweisungen zur aktiven Generierung von Fähigkeiten. Die Fähigkeitsbibliothek wird immer reichhaltiger und die Fähigkeiten steigen stetig.

Das Attraktivste ist die Einstellung, dass es keine Abhängigkeit von einer lokalen GPU-Cluster und keine eigene Verwaltung erfordert.

MetaClaw übergibt alle Trainingsaufgaben an die Tinker-Cloudplattform, so dass Training und Bereitstellung vollständig getrennt sind.

Solange Ihr Gerät mit dem Internet verbunden ist, kann das gesamte System laufen. Sie müssen sich keine Gedanken über Rechenleistung machen und brauchen kein spezielles Ingenieursteam für die Wartung.

Dadurch wird die Schwelle für das kontinuierliche Lernen von KI auf das Minimum gesenkt. Auch normale Menschen können nun einen sich entwickelnden Hummer “züchten”.

Darüber hinaus versteht MetaClaw in seinen Detailentwürfen die Probleme von Entwicklern sehr gut.

Asynchrone Architektur + Doppel-Lernmodus entkoppeln Service, Belohnungsmodellierung und Training vollständig. Die KI kann dem Benutzer in Echtzeit antworten, während im Hintergrund die Bewertung und Optimierung durchgeführt werden. “Arbeit” und “Lernen” beeinträchtigen sich nicht gegenseitig.

Es gibt auch genug Auswahl an Lernmodi. Wenn Sie eine leichte Lösung wünschen, können Sie die Stärkungslernmethode verwenden und von impliziten Rückmeldungen der Benutzer optimieren. Wenn Sie eine tiefgreifendere Verbesserung wünschen, können Sie die Online-Strategiedistillation verwenden und sich anhand von hochwertigen Textrückmeldungen verbessern.

Der Schwerpunkt liegt darauf, dass Sie die KI so trainieren können, wie Sie möchten.

Drei Schritte zum Einstieg

Es ist sehr einfach zu verwenden, nur drei Schritte.

Im ersten Schritt installieren Sie die Abhängigkeiten. Die ersten sind die üblichen Dienste und Bibliotheken für große Modelle, die für das Ausführen von APIs, das Senden von Anfragen und das Verbinden mit großen Modellen erforderlich sind.

Die folgenden tinker und tinker-cookbook sind die Schlüssel. Dies ist das SDK für die cloudbasierte LoRA-Training.

- pip install fastapi uvicorn httpx openai transformers - pip install tinker tinker-cookbook

Im zweiten Schritt führen Sie das Konfigurationsskript aus und leiten Sie das OpenClaw-Gateway auf den MetaClaw-Proxy. Kimi2.5 wird empfohlen.

- bash openclaw_model_kimi.sh

Im dritten Schritt setzen Sie den Tinker-API-Schlüssel und führen Sie einfach das Trainingsskript aus.

- export TINKER_API_KEY=”xxx” - cd /path/to/metaclaw - python examples/run_conversation_rl.py

Fertig. Danach müssen Sie nur noch wie gewohnt mit dem Agenten chatten. MetaClaw wird automatisch die Gesprächsrunden sammeln, bewerten und das Modell trainieren.

Sobald genug Stichproben gesammelt sind, werden die Gewichte aktualisiert, ohne dass manuelle Intervention erforderlich ist.

Wenn Sie die Fähigkeitseingabe aktivieren möchten, müssen Sie nur in der Konfiguration festlegen:

- config = MetaClawConfig(use_skills=True)

Wenn Sie die Fähigkeitsentwicklung starten möchten, können Sie festlegen (hier am Beispiel von GPT5.2):

- config = MetaClawConfig(use_skills=True,enable_skill_evolution=True,azure_openai_deployment=”gpt-5.2”,)

Dann konfigurieren Sie die Schlüssel:

- export AZURE_OPENAI_API_KEY=”xxx” - export AZURE_OPENAI_ENDPOINT=”https://your-endpoint.openai.azure.com/“

Alle Konfigurationsoptionen sind in MetaClawConfig zusammengefasst, einschließlich der Modellauswahl, LoRA-Parameter, Batchgröße, Trainingsschritte, Verlustfunktionstyp usw., was auf einen Blick ersichtlich ist.

Na ja, jetzt ist es wirklich wie das Züchten von Hummern (doge).

Die Arbeit an MetaClaw wird von Huaxiu Yao geleitet. Er ist Absolvent der Universität der Elektronischen Wissenschaft und Technologie und derzeit Assistentprofessor am Department für Informatik der Universität von North Carolina. Er war Postdoktorand am Stanford AI Lab und konzentriert sich auf Agenten und Embodied AI.

Projektadresse: https://github.com/aiming-lab/MetaClaw

Referenzlinks: [1]https://x.com/BoWang87/status/2031094971630235941 [2]https://x.com/HuaxiuYaoML/status/2031069599651729905

Dieser Artikel stammt aus dem WeChat-Account “Liangziwei”. Autor: Fokus auf führende Technologien. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Echtes Garnelenzüchten: Lassen Sie die Hummer in nur 3 Schritten während des Gesprächs evolvieren. Mit Reinforcement Learning ohne GPU und Datensatz.

Fähigkeitseingabe + Fähigkeitsentwicklung

Drei Schritte zum Einstieg