千问Agent、豆包手机、Skills背后,给Agent“卖铲子”的蓝海正在形成
Agent被称为AI时代的原生应用形式,被寄予厚望。AI时代的淘金者,也将蜂拥而至。
从2025年底至今,能“办事儿”的Agent赚足了眼球。在二手市场被炒到万元的豆包手机、被Meta数十亿美金收购的通用智能体初创公司Manus、以及宣布接入阿里全生态400多个产品,完成多种直接帮忙定外卖、定票的多部长程动作的千问Agent。
这些被精心打造成产品的智能体,吸引了大众的注意力,引发了AI从对话到行动的讨论。在聚光灯之下,开源社区也在进行一场热闹的“手搓智能体”浪潮。
技术极客们用Claude Skills这类灵活的工具包,组装出贴合实际业务的“数字员工”,或是打造专门优化工作流的Agent,像在AI时代养成一个专属的数字伙伴,这种从零到一的掌控感和成就感,才具有真正的吸引力。
一位科技行业资深分析师总结:从Agent业态来看,市场中的业务分化为“基座能力层”、“面向AI的业务层”和“面向人类的业务层”三个层次,这是令人兴奋的质的变化,中间蕴含了极大的想象空间。
其中最值得关注的是“面向机器(AI)的业务层”,这一层是在PC互联网时代、移动互联网时代都不曾存在的,全新的市场分层。在这一层中,一个专门服务Agent的基础设施市场正在快速成型。那些为Agent提供搜索API、身份认证的“卖铲子”玩家,早已悄然入场,抢占这片新蓝海。
01从爆火的Claude Skills说起
1月中旬,随着Claude Cowork横空出世,Skills彻底打破了开发者的圈层。原本只在命令行里活跃的SKILL.md,走进了每个普通职员的电脑桌面。
当你把一堆报销单扔给它时,它会默默启动“Expense-Audit”技能,自动调取OCR、校验税号、生成报表。这种“挂载即用”的体验,让Skills成了2026年职场人最梦寐以求的“外挂”。
破圈的Skill,其实早在2024年10月下旬,就已经在开发者圈内火起来。当时Anthropic发布了Claude Code终端工具和令人惊叹的Computer Use功能,AI获得了操作电脑和编写复杂代码的能力。
但是,新的问题也随之产生,开发者们发现,虽然因为Computer Use的诞生,让AI有了“手脚”,但AI“脑子”里缺少针对特定任务的专业SOP(标准作业程序)。想让它写个React组件,每次都得写一大段提示词来教它。
Claude Skills应运而生。
它的逻辑极其简单:将专业知识封装在一个SKILL.md文件中,实现指令的“按需加载”。平时这些规则不占用Token,只有当Claude识别到任务匹配时,才会像加载驱动程序一样读取这个Skill。
开源社区给予了Claude Skills极高的评价,称它为“低代码时代的专业封装器”。由于基于Markdown格式,即便不是资深程序员,只要能理清工作流程,就能创造出一个Skill。
目前在GitHub生态中,关注度最高的项目集中在两个方向。官方的AnthropicsSkills作为北极星仓库,内置了PDF转换、深度代码分析、Excel自动化等高频场景的标准技能,是所有开发者学习和引用的基准。
民间开源项目中,Jesse Vincent维护的ObraSuperpowers凭借独特的自动化执行框架和“自我反思”式指令集,在2026年初迅速走红,成为社区中星数增长最快、最受极客推崇的第三方技能工具包。
Jesse Vincent是一位资深的开源软件架构师,最早意识到 SKILL.md 这种文件格式巨大威力的人之一。他通过一系列博客文章(如《Skills for Claude!》)向全球开发者展示了,如何通过一个简单的 Markdown 文件,就能将复杂的人类专业经验“注入”给 AI。
他在 2025 年底发布的 Superpowers 4 版本,更是引入了独立的代码审查代理机制,直接推动了 2026 年初这波“AI 代理自主化”的热潮。在很多极客眼中,Jesse 的工作为 AI 时代的“专业标准作业程序(SOP)”制定了模版。
短短一年多的时间,skillsmp已经有6万个Claude Skills了。
国内的AI头部自媒体数字生命卡兹克这样评价Skills,“Skills的价值,在于复用。明天你会开始想做第二个。后天你会想把所有的流程全都搬进去。到那一步,你就进入了另一个状态。自由,创造的状态。”
Claude Skills 开启了一个全新的范式:在 Agent 的基础设施层,同样孕育着巨大的市场机遇。这意味着“一人公司”或“超级个体”能够独立打造可复用的 给Agent 用的技能包。这一领域极具潜力,有望演变成像移动互联网时代的 App Store 那样,形成一个高度多样化的生态系统。
02智能体“铲子”生态初步形成
Skills在2026年初的破圈火爆,其实只揭开了整个智能体经济的冰山一角。它的生态潜力巨大,但是在整个的生态基座中,还有众多更为关键的构成部分。
一个Agent 的完整框架是什么?OpenAI研究员Lilian Weng将 Agent 定义为一个以大模型为“大脑”,通过规划拆解目标、记忆沉淀经验、工具拓展边界,从而实现自主执行复杂任务的智能系统。这是行业认可度较高的标准框架。
“大脑”层目前是基础模型玩家的领地。但未来的竞争充满变数,因为业界正面临一个新的课题:端到端大模型是否本身就是智能体。这一争议点,我们将在文章的最后部分重点拆解。
有了大脑,Agent还需要学会规划,将复杂目标拆解为可执行步骤的艺术。2026年的智能体普遍具备了“反思与自省”能力。它们会像人类一样检查输出,发现搜索结果不匹配时,通过ReAct等模式自动修正路径。
虽然LangGraph或CrewAI这样的编排框架对普通用户是隐形的,但它们作为Agent的内置“元工具”,通过监控和优化执行路径,确保任务不会困在逻辑死循环里。
让Agent真正能够个性化服务于用户的关键在于“记忆(Memory)”。除了记录当前对话的短期记忆,通过RAG(检索增强生成)技术构建的长期记忆已成标配。利用Pinecone或Milvus等向量数据库API,Agent可以随时从海量历史文档中检索信息。
2026年最显著的趋势是“个性化档案”的兴起——Agent不仅记住你的工作偏好,还能通过MCP跨平台读取你的Google Drive或数据库记录,形成一种带有温度的个性化数字记忆,不再“阅后即焚”。
真正让Agent与众不同的,是它的“手脚”,即“工具与执行(Action)”。这是目前最繁荣的工具层,从Tavily专用搜索API到Zapier自动化集成平台,生态庞大。
特别是Claude Skills的出现,它将复杂工作流封装成可复用的能力包。配合MCP标准协议,Agent能无缝接入GitHub、Slack甚至本地Docker环境,直接操作 8000 多种 SaaS 应用。
2026年,Anthropic 又通过 Advanced Tool Use 补齐了 MCP 协议曾缺失的交互逻辑,利用工具搜索、使用示例及程序化调用,解决了 Agent 在面对海量工具时的感知过载与决策瘫痪。
现在搭建一个生产级Agent的流程已经像组装乐高一样标准化。简单说来,开发者首先定义清晰的“角色(Persona)”来设定行为风格;接着构建“环境(Environment)”,通过MCP连接器配齐各种外部API;随后注入“长效记忆(Knowledge)”,将业务文档存入向量数据库;再用编排框架设计“工作流(Orchestration)”逻辑;最后在最外层设定名为“护栏(Guardrails)”的安全过滤机制,确保Agent的行为始终安全可控。
注:以上分层框架根据行业分析及公开资料整理,目前还没有工业化的统一标准
一个智能体生态的雏形已经开始初步形成,然而,行业发展还在早期,还存在很多的模糊地带及待攻克的难题。
03智能体生态的分歧
第一种分歧在于 Agent 的本质,究竟是在帮助人完成流程,还是在成为另外一种“人”。
一派是Dify、n8n 或 LangChain 玩家们,深耕于“流程编排(Workflow)”。在这种范式下,开发者像老练的钟表匠,精细地拨动 LangGraph 里的节点,思考第一步做什么、第二步做什么。
另外一派的观点是,Agent创建者需要像构建一个物理世界一样,定义好原子操作的边界和行为准则,然后拥抱 Agent 在不确定性中产生“魔法”的可能。
就像 Manus 通过 Sandbox 提供的预制工具箱,Agent 虽然接收到了人类的指令,但是在环境中自主发现原子操作并组合。
这种视角认为,真正的 Agent 应该像人类一样在环境中“即兴发挥”,并不是在预设的流程轨道上“刻舟求剑”。
这种认知的差异直接延伸到了智能体经济的底层逻辑:什么才是这个生态里的最小结算单元?一派是将大目标“拆解”成无数细小的子任务(Task),认为只要拆得够细,Agent 就能执行到位。
然而,Agent的大脑是基于Transformer架构的大模型,这就造成了,Agent从本质上就不可能做到百分百精确拆分。
所以,另一股思潮正转向以“生成”为核心的“意图协议(Intent Protocol)”。在这种构想下,意图才是最小的经济单元,Agent 不必关注复杂的中间步骤,而是通过意图直接驱动能力的释放。
Agent 领域的创业者 Mingke,构建了Agency Framework:“我的框架里,Agent就是所有能力的interface,其他能力是通过Agent这个 interface暴露给终端用户的,包括Access control(权限控制)、身份核验、(使用能力的)状态管理,比如是否实现目标。”
在这种路径下,意味着未来的用户可能不再感知具体的 App 或数据库,他们只通过 Agent 这一层“薄纱”与整个数字世界交互。如果按照传统的思考逻辑,这种范式会对现有的互联网生态架构提出根本性挑战。
这也是为什么虽然豆包手机理想很丰满,但是在真正干活的时候阻力重重;千问Agent在阿里自有的生态框架中,能够比较完整地完成用户布置的任务。
在传统的世界里,试图搭建一个新的游戏规则,必定困难重重。
在很多Agent创业者的眼中,顺利地让Agent完成意图,需要一个新世界的新方式。
在这种设想中,Agent经济的最小单元,就如上文所说,是“意图”。意图的定义是“期望的状态” 。
获得了用户描述的这种状态之后,Agent 将模糊的自然语言转化为一系列可执行的规划。
比如,用户说,我想去北京出差,这其中其实包含了订票、订酒店、天气查询等一系列意图。点一杯奶茶,也属于一种意图。
未来的商业结算,是为用户“达成意图”的结果而付费。
然而,从“理解意图”到“交付价值”,中间还横着一道天堑:意图如何标准化? 怎样才算真正达成了意图?目前,Agent 之间依然像一座座彼此隔离的孤岛,生态中尚未形成通用的意图表达协议。
这意味着,Agent 们还无法像 Visa 或 Swift 系统处理货币那样,直接通过意图来结算价值。
Agent 真正走向价值互联,显然还有很长的一段路要走。
04模型和智能体,边界在哪里?
另外,还有一个一直有争议的核心问题,具备Agent能力的基础模型,如果能够端到端实现Agent的功能,那么它和Agent的边界在哪里?如果端到端的模型能够通吃一切,那么智能体的生态还是否能够健康发展?
Mingke解释,“LLM的本质只有Next Token Genration,至于这个Token吐出来后,怎么被改造成可以去对环境造成影响的Action是模型以外的东西。
Next Token Generation是LLM唯一能做的事情。虽然产品化之后大家统称为模型,实际上已经是模型外面附加了很多东西了。比如Claude 已经开始Agent化了,内核的模型和claude code,以及cowork之间,塞了很多东西,比如虚拟机,这些都不属于模型本身。”
所以,端到端的具有Agent能力的模型和Agent,如果不考虑技术实现路径,实际上是一个物种,都需要Agent的生态依托。
当下,Agent 经济的淘金潮已然开启,相比于终端应用的混战,为 Agent 提供标准化能力支撑的“基础设施层”,即那些不可或缺的“铲子”,已进化为一个确定性极高的爆发性赛道。
但是这次,“卖铲子”绝对不是配角。
本文来自微信公众号“腾讯科技”,作者:郭晓静,编辑:徐青阳,36氪经授权发布。