Hinter Qianwen Agent, Doubao Handy und Skills bildet sich ein Blaues Meer für diejenigen, die den Agenten die "Schaufeln" verkaufen.
Agenten werden als die ursprüngliche Anwendungsform der KI - Ära bezeichnet und wecken große Hoffnungen. Die Goldsucher der KI - Ära werden in Scharen hereinschwärmen.
Seit Ende 2025 bis heute hat der "tätige" Agent die Aufmerksamkeit auf sich gezogen. Das Doubao - Handy, das auf dem zweiten - Hand - Markt auf zehntausend Yuan gehandelt wurde, das General - Intelligence - Agent - Startup Manus, das von Meta für Milliarden von US - Dollar übernommen wurde, sowie der Qianwen - Agent, der angekündigt hat, sich an über 400 Produkten des gesamten Alibaba - Ökosystems anzuschließen und verschiedene langfristige Aktionen wie das Bestellen von Take - away und Tickets direkt zu erledigen.
Diese sorgfältig als Produkte gestalteten Agenten haben die Aufmerksamkeit der Öffentlichkeit erregt und eine Diskussion über die Überleitung der KI von der Konversation zur Aktion ausgelöst. Im Rampenlicht der Öffentlichkeit findet auch in der Open - Source - Community eine lebhafte Bewegung des "Handschaffens von Agenten" statt.
Technische Enthusiasten nutzen flexible Toolkits wie Claude Skills, um "digitale Angestellte" zu bauen, die an die tatsächlichen Geschäftsprozesse angepasst sind, oder spezielle Agenten zur Optimierung von Arbeitsabläufen zu entwickeln. Es ist wie das Züchten eines persönlichen digitalen Partners in der KI - Ära. Diese Kontrollierbarkeit und das Erfolgserlebnis von Null bis Eins sind die echten Attraktivfaktoren.
Ein erfahrener Analyst der Technologiebranche resümiert: Aus der Perspektive der Agent - Branche teilt sich der Markt in drei Ebenen auf: die "Grundlagenfähigkeits - Ebene", die "KI - orientierte Geschäftsebene" und die "Menschen - orientierte Geschäftsebene". Dies ist eine aufregende qualitative Veränderung, die riesigen Vorstellungskraftraum birgt.
Besonders bemerkenswert ist die "Maschinen (KI) - orientierte Geschäftsebene". Dies ist eine völlig neue Marktsegmentierung, die in der Ära des PC - Internets und der mobilen Internetzeit noch nicht existierte. In dieser Ebene bildet sich schnell ein Infrastrukturmarkt speziell für Agenten. Die "Spatenseller", die Such - APIs und Identitätsverifizierung für Agenten bieten, sind schon stillschweigend auf dem Markt und erobern diesen neuen Blauocean.
01 Vom aufstrebenden Claude Skills gesprochen
Mitte Januar hat mit dem Auftauchen von Claude Cowork Skills endgültig die Entwickler - Szene verlassen. Das ursprünglich nur in der Befehlszeile aktive SKILL.md ist auf den Desktop jedes normalen Angestellten gelangt.
Wenn Sie eine Reihe von Reisekostenabrechnungen an es geben, startet es still und leise die "Expense - Audit" - Fähigkeit, ruft automatisch OCR ab, prüft die Steuer - ID und erstellt Berichte. Diese "Anschluss - und - Benutzung" - Erfahrung hat Skills zum begehrtesten "Cheat" der Berufstätigen im Jahr 2026 gemacht.
Das Skills, das die Szene verlassen hat, war bereits Ende Oktober 2024 in der Entwickler - Community beliebt. Damals hat Anthropic das Claude Code - Terminaltool und die beeindruckende Computer Use - Funktion veröffentlicht. Die KI hat die Fähigkeit erlangt, Computer zu bedienen und komplexen Code zu schreiben.
Aber damit sind auch neue Probleme entstanden. Die Entwickler haben festgestellt, dass obwohl die KI durch die Entstehung von Computer Use "Hände und Füße" hat, aber im "Gehirn" der KI fehlt es an professionellen SOPs (Standard Operating Procedures) für bestimmte Aufgaben. Wenn man es bitten möchte, eine React - Komponente zu schreiben, muss man jedes Mal einen langen Hinweistext schreiben, um es zu lehren.
Claude Skills ist daraus entstanden.
Seine Logik ist äußerst einfach: Es kapselt Fachwissen in einer SKILL.md - Datei und ermöglicht die "bedarfsabhängige Ladung" von Anweisungen. Normalerweise belegen diese Regeln keine Token. Erst wenn Claude eine Übereinstimmung mit der Aufgabe erkennt, liest es diese Skill wie ein Treiberprogramm.
Die Open - Source - Community hat Claude Skills hoch gelobt und es als "professionellen Kapsler der Low - Code - Ära" bezeichnet. Da es auf dem Markdown - Format basiert, kann selbst ein nicht - erfahrener Programmierer, solange er den Arbeitsablauf versteht, eine Skill erstellen.
Derzeit konzentrieren sich die am meisten beachteten Projekte in der GitHub - Ökosystem auf zwei Richtungen. Das offizielle AnthropicsSkills als Polester - Repository enthält Standard - Skills für häufige Szenarien wie PDF - Konvertierung, tiefe Code - Analyse und Excel - Automatisierung und ist die Referenzbasis für alle Entwickler.
Unter den privaten Open - Source - Projekten hat das von Jesse Vincent verwaltete ObraSuperpowers sich Anfang 2026 schnell etabliert. Dank seines einzigartigen Automatisierungs - Ausführungsrahmens und des "Selbstreflexions" - Befehlssatzes ist es das am schnellsten wachsende und von den Enthusiasten am meisten geschätzte Drittanbieter - Skill - Toolkit in der Community.
Jesse Vincent ist ein erfahrener Open - Source - Softwarearchitekt und einer der ersten, der die enorme Macht des SKILL.md - Dateiformats erkannt hat. Er hat über eine Reihe von Blogartikeln (z. B. "Skills for Claude!") den globalen Entwicklern gezeigt, wie man mit einer einfachen Markdown - Datei komplexe menschliche Fachkenntnisse in die KI "einfüllen" kann.
Die im Ende 2025 veröffentlichte Superpowers 4 - Version hat sogar einen unabhängigen Code - Review - Agentenmechanismus eingeführt und hat direkt die Welle der "Autonomisierung von KI - Agenten" Anfang 2026 vorangetrieben. In den Augen vieler Enthusiasten hat Jesse's Arbeit ein Muster für die "professionellen Standard Operating Procedures (SOP)" in der KI - Ära gesetzt.
Innerhalb von nur etwas mehr als einem Jahr hat skillsmp bereits 60.000 Claude Skills.
Das chinesische führende KI - Weblog Digital Life Kazik hat Skills wie folgt bewertet: "Der Wert von Skills liegt in der Wiederverwendung. Morgen werden Sie anfangen, über die zweite zu denken. Übermorgen werden Sie alle Prozesse hineinversetzen wollen. Bis dahin haben Sie einen anderen Zustand erreicht. Einen Zustand der Freiheit und der Kreativität."
Claude Skills hat ein neues Paradigma eröffnet: Auch in der Infrastrukturebene von Agenten stecken riesige Marktchancen. Dies bedeutet, dass "Ein - Mann - Unternehmen" oder "Superindividuen" unabhängig wiederverwendbare Skill - Pakete für Agenten bauen können. Dieser Bereich hat enormes Potenzial und könnte sich wie der App Store in der Ära des mobilen Internets ausbilden und ein hoch diversifiziertes Ökosystem bilden.
02 Die anfängliche Bildung der Agent - "Spaten" - Ökosystem
Der Erfolg von Skills Anfang 2026 hat eigentlich nur die Spitze des Eisbergs der gesamten Agent - Ökonomie enthüllt. Seine Ökosystem - Potenziale sind riesig, aber in der gesamten Ökosystem - Grundlage gibt es noch viele weitere Schlüsselbestandteile.
Was ist der vollständige Rahmen eines Agenten? Der OpenAI - Forscher Lilian Weng definiert einen Agenten als ein intelligentes System, das ein großes Modell als "Gehirn" hat, Ziele durch Planung zerlegt, Erfahrungen durch Gedächtnis sammelt und Grenzen durch Tools erweitert, um komplexe Aufgaben autonom auszuführen. Dies ist ein von der Branche weitgehend anerkannter Standardrahmen.
Die "Gehirn" - Ebene ist derzeit das Revier der Anbieter von Basismodellen. Aber der zukünftige Wettbewerb ist voller Ungewissheiten, denn die Branche steht vor einem neuen Thema: Ist ein End - to - End - Großmodell selbst ein Agent? Diesen Streitpunkt werden wir am Ende des Artikels ausführlich analysieren.
Nachdem es ein Gehirn hat, muss der Agent auch lernen, zu planen, d. h. die Kunst, komplexe Ziele in ausführbare Schritte zu zerlegen. Die Agenten im Jahr 2026 verfügen im Allgemeinen über die Fähigkeit zur "Reflexion und Selbstüberprüfung". Sie überprüfen wie Menschen die Ausgabe und korrigieren automatisch den Pfad, wenn sie feststellen, dass die Suchergebnisse nicht übereinstimmen, indem sie Muster wie ReAct nutzen.
Obwohl Orchestrationsrahmen wie LangGraph oder CrewAI für normale Benutzer unsichtbar sind, dienen sie als eingebaute "Metatools" des Agenten. Durch die Überwachung und Optimierung des Ausführungsweges stellen sie sicher, dass die Aufgabe nicht in einer logischen Endlosschleife stecken bleibt.
Der Schlüssel, um den Agenten wirklich individuell für den Benutzer zu betreiben, liegt in der "Gedächtnis (Memory)". Neben dem Kurzzeitgedächtnis, das die aktuelle Konversation aufzeichnet, ist das Langzeitgedächtnis, das durch die RAG (Retrieval - Augmented Generation) - Technologie aufgebaut wird, inzwischen Standard. Mit den APIs von Vektordatenbanken wie Pinecone oder Milvus kann der Agent jederzeit Informationen aus einer riesigen Anzahl von historischen Dokumenten abrufen.
Der markanteste Trend im Jahr 2026 ist der Aufstieg der "individuellen Profile" - Agenten merken nicht nur Ihre Arbeitsvorlieben, sondern können auch über die MCP - Plattformübergreifende Schnittstelle Ihre Google Drive - oder Datenbankaufzeichnungen lesen und so eine persönliche digitale Erinnerung mit Emotionen bilden, die nicht mehr "nach dem Lesen vergessen" wird.
Was den Agenten wirklich einzigartig macht, sind seine "Hände und Füße", d. h. die "Tools und Ausführung (Action)". Dies ist derzeit die am reichhaltigsten entwickelte Tool - Ebene. Vom speziellen Such - API Tavily bis zur Automatisierungs - Integrationsplattform Zapier ist das Ökosystem riesig.
Insbesondere die Entstehung von Claude Skills hat komplexe Arbeitsabläufe in wiederverwendbare Fähigkeitspakete verpackt. In Kombination mit dem MCP - Standardprotokoll kann der Agent nahtlos in GitHub, Slack oder sogar die lokale Docker - Umgebung integriert werden und direkt über 8.000 SaaS - Anwendungen bedienen.
Im Jahr 2026 hat Anthropic durch die Advanced Tool Use die fehlende Interaktionslogik des MCP - Protokolls ergänzt. Durch die Suche nach Tools, die Verwendung von Beispielen und die programmgesteuerte Anrufung hat es das Problem der Überlastung der Wahrnehmung und der Entscheidungs - Lähmung des Agenten bei der Auswahl aus einer Vielzahl von Tools gelöst.
Derzeit ist der Prozess der Erstellung eines produktionsreifen Agenten so standardisiert wie das Zusammenbauen von Lego. Einfach ausgedrückt, definieren die Entwickler zunächst ein klares "Persona", um das Verhaltensstil zu bestimmen. Dann bauen sie die "Umgebung (Environment)" auf und stellen über den MCP - Connector verschiedene externe APIs bereit. Anschließend injizieren sie "langfristiges Wissen (Knowledge)" und speichern die Geschäftsdokumente in der Vektordatenbank. Dann gestalten sie die Logik der "Orchestrierung (Orchestration)" mit einem Orchestrationsrahmen. Schließlich setzen sie auf der äußersten Ebene eine Sicherheitsfilterung namens "Guardrails" ein, um sicherzustellen, dass das Verhalten des Agenten immer sicher und kontrollierbar ist.
Hinweis: Der obige Schichtungsrahmen basiert auf Branchenanalysen und öffentlichen Informationen. Derzeit gibt es noch keine einheitlichen industriellen Standards.
Der Entwurf einer Agent - Ökosystem hat sich bereits anfänglich gebildet. Aber die Branche befindet sich noch in der Anfangsphase, und es gibt viele unklare Bereiche und Probleme, die noch zu lösen sind.
03 Die Meinungsverschiedenheiten in der Agent - Ökosystem
Die erste Meinungsverschiedenheit betrifft die Natur des Agenten: Hilft er Menschen, Prozesse abzuschließen, oder wird er eine andere Art von "Mensch"?
Eine Gruppe von Spielern wie Dify, n8n oder LangChain ist vertieft in der "Prozessorchestrierung (Workflow)". In diesem Paradigma agieren die Entwickler wie erfahrene Uhrmacher und bewegen vorsichtig die Knoten in LangGraph und überlegen, was als erstes und was als zweites getan werden soll.
Die andere Gruppe ist der Meinung, dass die Ersteller von Agenten wie bei der Konstruktion einer physischen Welt die Grenzen und Verhaltensregeln von atomaren Operationen definieren müssen und dann die Möglichkeit der Entstehung von "Magie" des Agenten in der Unsicherheit akzeptieren müssen.
So wie Manus über die Sandbox ein vordefiniertes Toolset bietet. Der Agent erhält zwar die menschlichen Anweisungen, aber er entdeckt und kombiniert die atomaren Operationen autonom in der Umgebung.
Diese Perspektive geht davon aus, dass ein echter Agent wie ein Mensch in der Umgebung "improvisieren" sollte und nicht auf einem vorgegebenen Prozesspfad "nach dem Schwert suchen, das ins Wasser gefallen ist".
Diese Unterschiede in der Wahrnehmung erstrecken sich direkt auf die unterste Logik der Agent - Ökonomie: Was ist die kleinste Abrechnungseinheit in dieser Ökosystem? Eine Gruppe teilt das große Ziel in unzählige kleine Teilaufgaben (Task) auf und glaubt, dass der Agent die Aufgabe ausführen kann, wenn die Teilung fein genug ist.
Aber das Gehirn des Agenten basiert auf einem Transformer - Architektur - Großmodell. Dadurch ist es für den Agenten von Natur aus unmöglich, eine hundertprozentige genaue Teilung zu erreichen.
Deshalb wendet sich eine andere Denkrichtung der "Intent - Protokoll (Intent Protocol)" zu, die auf der "Generierung" basiert. In dieser Vorstellung ist der Intent die kleinste wirtschaftliche Einheit. Der Agent muss sich nicht um die komplexen Zwischenschritte kümmern, sondern löst die Fähigkeiten direkt durch den Intent aus.
Der Unternehmer Mingke im Bereich der Agenten hat das Agency Framework entwickelt: "In meinem Framework ist der Agent die Schnittstelle für alle Fähigkeiten. Andere Fähigkeiten werden über diese Schnittstelle an die Endbenutzer weitergegeben, einschließlich des Zugangskontrolls (Access control), der Identitätsverifizierung und der Zustandsverwaltung (z. B. ob das Ziel erreicht ist)."