千问Agent、豆包手机、Skills背后：为Agent“卖铲子”的蓝海正逐渐形成

服务 AI，一个全新的生态层

Agent被称为AI时代的原生应用形式，被寄予厚望。AI时代的淘金者，也将蜂拥而至。

从2025年底至今，能“办事儿”的Agent赚足了眼球。在二手市场被炒到万元的豆包手机、被Meta数十亿美金收购的通用智能体初创公司Manus、以及宣布接入阿里全生态400多个产品，完成多种直接帮忙定外卖、定票的多部长程动作的千问Agent。

这些被精心打造成产品的智能体，吸引了大众的注意力，引发了AI从对话到行动的讨论。在聚光灯之下，开源社区也在进行一场热闹的“手搓智能体”浪潮。

技术极客们用Claude Skills这类灵活的工具包，组装出贴合实际业务的“数字员工”，或是打造专门优化工作流的Agent，像在AI时代养成一个专属的数字伙伴，这种从零到一的掌控感和成就感，才具有真正的吸引力。

一位科技行业资深分析师总结：从Agent业态来看，市场中的业务分化为“基座能力层”、“面向AI的业务层”和“面向人类的业务层”三个层次，这是令人兴奋的质的变化，中间蕴含了极大的想象空间。

其中最值得关注的是“面向机器（AI）的业务层”，这一层是在PC互联网时代、移动互联网时代都不曾存在的，全新的市场分层。在这一层中，一个专门服务Agent的基础设施市场正在快速成型。那些为Agent提供搜索API、身份认证的“卖铲子”玩家，早已悄然入场，抢占这片新蓝海。

01从爆火的Claude Skills说起

1月中旬，随着Claude Cowork横空出世，Skills彻底打破了开发者的圈层。原本只在命令行里活跃的SKILL.md，走进了每个普通职员的电脑桌面。

当你把一堆报销单扔给它时，它会默默启动“Expense-Audit”技能，自动调取OCR、校验税号、生成报表。这种“挂载即用”的体验，让Skills成了2026年职场人最梦寐以求的“外挂”。

破圈的Skill，其实早在2024年10月下旬，就已经在开发者圈内火起来。当时Anthropic发布了Claude Code终端工具和令人惊叹的Computer Use功能，AI获得了操作电脑和编写复杂代码的能力。

但是，新的问题也随之产生，开发者们发现，虽然因为Computer Use的诞生，让AI有了“手脚”，但AI“脑子”里缺少针对特定任务的专业SOP(标准作业程序)。想让它写个React组件，每次都得写一大段提示词来教它。

Claude Skills应运而生。

它的逻辑极其简单：将专业知识封装在一个SKILL.md文件中，实现指令的“按需加载”。平时这些规则不占用Token，只有当Claude识别到任务匹配时，才会像加载驱动程序一样读取这个Skill。

开源社区给予了Claude Skills极高的评价，称它为“低代码时代的专业封装器”。由于基于Markdown格式，即便不是资深程序员，只要能理清工作流程，就能创造出一个Skill。

目前在GitHub生态中，关注度最高的项目集中在两个方向。官方的AnthropicsSkills作为北极星仓库，内置了PDF转换、深度代码分析、Excel自动化等高频场景的标准技能，是所有开发者学习和引用的基准。

民间开源项目中，Jesse Vincent维护的ObraSuperpowers凭借独特的自动化执行框架和“自我反思”式指令集，在2026年初迅速走红，成为社区中星数增长最快、最受极客推崇的第三方技能工具包。

Jesse Vincent是一位资深的开源软件架构师，最早意识到 SKILL.md 这种文件格式巨大威力的人之一。他通过一系列博客文章（如《Skills for Claude!》）向全球开发者展示了，如何通过一个简单的 Markdown 文件，就能将复杂的人类专业经验“注入”给 AI。

他在 2025 年底发布的 Superpowers 4 版本，更是引入了独立的代码审查代理机制，直接推动了 2026 年初这波“AI 代理自主化”的热潮。在很多极客眼中，Jesse 的工作为 AI 时代的“专业标准作业程序（SOP）”制定了模版。

短短一年多的时间，skillsmp已经有6万个Claude Skills了。

国内的AI头部自媒体数字生命卡兹克这样评价Skills，“Skills的价值，在于复用。明天你会开始想做第二个。后天你会想把所有的流程全都搬进去。到那一步，你就进入了另一个状态。自由，创造的状态。”

Claude Skills 开启了一个全新的范式：在 Agent 的基础设施层，同样孕育着巨大的市场机遇。这意味着“一人公司”或“超级个体”能够独立打造可复用的给Agent 用的技能包。这一领域极具潜力，有望演变成像移动互联网时代的 App Store 那样，形成一个高度多样化的生态系统。

02智能体“铲子”生态初步形成

Skills在2026年初的破圈火爆，其实只揭开了整个智能体经济的冰山一角。它的生态潜力巨大，但是在整个的生态基座中，还有众多更为关键的构成部分。

一个Agent 的完整框架是什么？OpenAI研究员Lilian Weng将 Agent 定义为一个以大模型为“大脑”，通过规划拆解目标、记忆沉淀经验、工具拓展边界，从而实现自主执行复杂任务的智能系统。这是行业认可度较高的标准框架。

“大脑”层目前是基础模型玩家的领地。但未来的竞争充满变数，因为业界正面临一个新的课题：端到端大模型是否本身就是智能体。这一争议点，我们将在文章的最后部分重点拆解。

有了大脑，Agent还需要学会规划，将复杂目标拆解为可执行步骤的艺术。2026年的智能体普遍具备了“反思与自省”能力。它们会像人类一样检查输出，发现搜索结果不匹配时，通过ReAct等模式自动修正路径。

虽然LangGraph或CrewAI这样的编排框架对普通用户是隐形的，但它们作为Agent的内置“元工具”，通过监控和优化执行路径，确保任务不会困在逻辑死循环里。

让Agent真正能够个性化服务于用户的关键在于“记忆(Memory)”。除了记录当前对话的短期记忆,通过RAG(检索增强生成)技术构建的长期记忆已成标配。利用Pinecone或Milvus等向量数据库API，Agent可以随时从海量历史文档中检索信息。

2026年最显著的趋势是“个性化档案”的兴起——Agent不仅记住你的工作偏好，还能通过MCP跨平台读取你的Google Drive或数据库记录，形成一种带有温度的个性化数字记忆，不再“阅后即焚”。

真正让Agent与众不同的，是它的“手脚”，即“工具与执行(Action)”。这是目前最繁荣的工具层,从Tavily专用搜索API到Zapier自动化集成平台，生态庞大。

特别是Claude Skills的出现，它将复杂工作流封装成可复用的能力包。配合MCP标准协议，Agent能无缝接入GitHub、Slack甚至本地Docker环境，直接操作 8000 多种 SaaS 应用。

2026年，Anthropic 又通过 Advanced Tool Use 补齐了 MCP 协议曾缺失的交互逻辑，利用工具搜索、使用示例及程序化调用，解决了 Agent 在面对海量工具时的感知过载与决策瘫痪。

现在搭建一个生产级Agent的流程已经像组装乐高一样标准化。简单说来，开发者首先定义清晰的“角色(Persona)”来设定行为风格；接着构建“环境(Environment)”，通过MCP连接器配齐各种外部API；随后注入“长效记忆(Knowledge)”，将业务文档存入向量数据库；再用编排框架设计“工作流(Orchestration)”逻辑；最后在最外层设定名为“护栏(Guardrails)”的安全过滤机制，确保Agent的行为始终安全可控。

注：以上分层框架根据行业分析及公开资料整理，目前还没有工业化的统一标准

一个智能体生态的雏形已经开始初步形成，然而，行业发展还在早期，还存在很多的模糊地带及待攻克的难题。

03智能体生态的分歧

第一种分歧在于 Agent 的本质，究竟是在帮助人完成流程，还是在成为另外一种“人”。

一派是Dify、n8n 或 LangChain 玩家们，深耕于“流程编排（Workflow）”。在这种范式下，开发者像老练的钟表匠，精细地拨动 LangGraph 里的节点，思考第一步做什么、第二步做什么。

另外一派的观点是，Agent创建者需要像构建一个物理世界一样，定义好原子操作的边界和行为准则，然后拥抱 Agent 在不确定性中产生“魔法”的可能。

就像 Manus 通过 Sandbox 提供的预制工具箱，Agent 虽然接收到了人类的指令，但是在环境中自主发现原子操作并组合。

这种视角认为，真正的 Agent 应该像人类一样在环境中“即兴发挥”，并不是在预设的流程轨道上“刻舟求剑”。

这种认知的差异直接延伸到了智能体经济的底层逻辑：什么才是这个生态里的最小结算单元？一派是将大目标“拆解”成无数细小的子任务（Task），认为只要拆得够细，Agent 就能执行到位。

然而，Agent的大脑是基于Transformer架构的大模型，这就造成了，Agent从本质上就不可能做到百分百精确拆分。

所以，另一股思潮正转向以“生成”为核心的“意图协议（Intent Protocol）”。在这种构想下，意图才是最小的经济单元，Agent 不必关注复杂的中间步骤，而是通过意图直接驱动能力的释放。

Agent 领域的创业者 Mingke，构建了Agency Framework：“我的框架里，Agent就是所有能力的interface，其他能力是通过Agent这个 interface暴露给终端用户的，包括Access control（权限控制）、身份核验、（使用能力的）状态管理，比如是否实现目标。”

在这种路径下，意味着未来的用户可能不再感知具体的 App 或数据库，他们只通过 Agent 这一层“薄纱”与整个数字世界交互。如果按照传统的思考逻辑，这种范式会对现有的互联网生态架构提出根本性挑战。

这也是为什么虽然豆包手机理想很丰满，但是在真正干活的时候阻力重重；千问Agent在阿里自有的生态框架中，能够比较完整地完成用户布置的任务。

在传统的世界里，试图搭建一个新的游戏规则，必定困难重重。

在很多Agent创业者的眼中，顺利地让Agent完成意图，需要一个新世界的新方式。

在这种设想中，Agent经济的最小单元，就如上文所说，是“意图”。意图的定义是“期望的状态” 。

获得了用户描述的这种状态之后，Agent 将模糊的自然语言转化为一系列可执行的规划。

比如，用户说，我想去北京出差，这其中其实包含了订票、订酒店、天气查询等一系列意图。点一杯奶茶，也属于一种意图。

未来的商业结算，是为用户“达成意图”的结果而付费。

然而，从“理解意图”到“交付价值”，中间还横着一道天堑：意图如何标准化？怎样才算真正达成了意图？目前，Agent 之间依然像一座座彼此隔离的孤岛，生态中尚未形成通用的意图表达协议。

这意味着，Agent 们还无法像 Visa 或 Swift 系统处理货币那样，直接通过意图来结算价值。

Agent 真正走向价值互联，显然还有很长的一段路要走。

04模型和智能体，边界在哪里？

另外，还有一个一直有争议的核心问题，具备Agent能力的基础模型，如果能够端到端实现Agent的功能，那么它和Agent的边界在哪里？如果端到端的模型能够通吃一切，那么智能体的生态还是否能够健康发展？

Mingke解释，“LLM的本质只有Next Token Genration，至于这个Token吐出来后，怎么被改造成可以去对环境造成影响的Action是模型以外的东西。

Next Token Generation是LLM唯一能做的事情。虽然产品化之后大家统称为模型，实际上已经是模型外面附加了很多东西了。比如Claude 已经开始Agent化了，内核的模型和claude code，以及cowork之间，塞了很多东西，比如虚拟机，这些都不属于模型本身。”

所以，端到端的具有Agent能力的模型和Agent，如果不考虑技术实现路径，实际上是一个物种，都需要Agent的生态依托。

当下，Agent 经济的淘金潮已然开启，相比于终端应用的混战，为 Agent 提供标准化能力支撑的“基础设施层”，即那些不可或缺的“铲子”，已进化为一个确定性极高的爆发性赛道。

但是这次，“卖铲子”绝对不是配角。

本文来自微信公众号“腾讯科技”，作者：郭晓静，编辑：徐青阳，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

千问Agent、豆包手机、Skills背后，给Agent“卖铲子”的蓝海正在形成

01从爆火的Claude Skills说起

02智能体“铲子”生态初步形成

03智能体生态的分歧

04模型和智能体，边界在哪里？