Skills正火，零Skill的Agent接踵而至……

会自己进化的Agent

Skills刚爆火，又有新的Agent范式来搅局了……

根本不用Skills，也不需要上GitHub翻项目、找工具。直接把需求丢给Agent，它能一边干活，一边给自己造装备。

是的，完全不需要人类伺候，也不用给AI师傅递板手、搬梯子。

工作中遇到啥需要用的装备，Agent能自己直接「进化」出来。

以Gemini 3 Pro为后端，在地狱级评测HLE（Humanity’s Last Exam）上一骑绝尘，仅次于GPT5.2-Pro智能体。

在几个高难评测集里，比官方未披露方法的含工具使用的结果，高了将近20分。

甚至还是One take，一口气跑出来的。

这是刚刚新发的一篇论文。

会自己造工具的Agent

发现这篇论文，还是因为前几天刷到了个demo。

第一眼看上去，只是个很普通的交互场景：用户有个任务需求，丢给了Agent一串Prompt。

找找2023届毕业生中，哪些州的ACT考试参与率达到或超过50%，且平均综合分数在20分及以上。并给出这些州中，各州学生达到科学基准的比例。

然后Agent开始做分析、规划任务，挑选可能会用到的工具。

目前为止，一切都还很正常。

但说实话，感觉这个demo选的任务不是很好，太开放，不像是现有工具能一次解决的，估计得迭代对话不少次。

嚯！果然出问题了，工具不够用，干不下去。

诶，等一下……

它怎么开始自己造工具了？？用错了还能修复？

有点过于魔幻了啊。感觉就像动物园里，前一秒还躺着剥香蕉的猩猩，转头一看，一个跟头翻起来，开始钻木取火了。

我赶紧把论文翻出来，从头到尾扒了一遍，

不看没事，这一看，扒出来一堆更让人细思极恐的细节。

这家伙，居然靠这种方式，在只有一次答题机会的5个评测集中，造了128个工具！！

是的，白手起家，从0开始，一个一个捏到了128。

简直是天崩开局。

更惨的是，研究人员还一上来就把它扔进了地狱级的Benchmark—HLE（Humanity’s Last Exam）上，和基于GPT、Claude、Gemini的这些Agent怪物同台竞争。

不过，意料之外的事情发生了。

遇到「打」不过的题目，这家伙居然会自己造武器。

一路边打怪，边合成装备。

等把HLE两千多道题刷完，它已经悄悄攒了97把大宝剑。

这还没完，它又背着这九十多把大剑，前往了更多样的Benchmark试炼场——DeepSearchQA、FinSearch Comp、XBench。

还是故技重施，继续造工具，继续打怪升级。

一直刷到将近4000道题时，它突然停了，不造装备了。

趋势上也有迹可循，下面这条曲线，前期增速很快，后面明显开始出现边际效应递减。

最终，工具数量稳定收敛在128个。

像是知道这些已经够用了一样。

△按特定顺序的工具数量随处理的query数统计图

这点非常关键。说明前面的工具不是乱造的，而是真的具备可复用性。

所以在积累到128个工具时，Agent才会突然发现：旧工具已经可以覆盖绝大多数新任务，没必要继续扩张。

再看这张图更直观——两种策略下的Agent性能统计对比，ZS代表从零工具起手，WS代表前面说的按数据集顺序的知识迁移策略。

在WS策略下可以明显看到：旧工具越多，新工具越少。甚至在最后两个XBench阶段直接归零。

△

下面这张图更有意思，这是这个Agent最爱用的50个工具。

△

排名第一的是「网页搜索」，断崖式第一。

后面跟着的也都很眼熟：内容获取、计算器、文件下载、学术论文搜索、PDF处理……

简直和人类的工作习惯一模一样啊，都是些通用的基础工具。而且复用率非常高，马太效应极其明显。

这么看来，它可能真不是为了造工具而造工具，而是真的像人一样，在工作过程中沉淀出了一套方法论，并且能在不同任务之间迁移。

实验结果也印证了这一点。

这只会自己造工具的Agent，在刚刚说的那五项Benchmark上，几乎全部一骑绝尘。

全方位碾压基于Gemini 3 Pro的Agent，在需要复杂检索与推理的任务中，甚至能高出十余个百分点。

原位自进化框架

怎么做到的？

研究团队用了一种全新框架，叫原位自进化（In-situ Self-evolving Agent）。

第一眼没太看懂，但隐约感觉是个很性感的概念。

仔细研究了一下，发现行业其实一直在做自进化（Self-evolving Agent），但和原位自进化是两件事。

普通自进化，大都发生在训练阶段。高度依赖高质量外部监督信号，必须有专家提前选定进化领域，一个模型出题或标注好答案，再让新模型基于这些标注题目，开始最大化目标函数的进化。

这种模式呢，往往是基于一个长期目标做优化，可以从根本上重塑模型的大脑。

最常见的交付结果，就是现在各种模型厂商在做的：炼丹，发一款新模型上来炸场。

但缺点也很明显。

工程量巨大，反馈链路极长，因此只能在训练阶段完成。一旦上线，就没有「进化」这一说了。

而原位自进化，是一种发生在推理阶段的自进化。

不需要外部监督，也没有真值，光靠模型推理时的内部反馈，以及上一次交互中积累的经验，就能蒸馏出可复用的通用技能。

换句话说，只要上线，模型就能做到「边做边学」。

读到这里，肯定有读者要问了：

这难道就是AI行业一直苦苦追寻的明珠，自主学习吗？

只要训一次，后面就能在线上不断习得新能力，甚至抵达智能爆炸的奇点，实现ASI。

事实上，在2025年的云栖大会上，阿里CEO吴泳铭就曾指出：

ASI一定会到达，并且此前的一个关键节点，就是AI能够自进化。

但值得注意的是，行业在谈ASI的这种自进化时，更多还是指参数层面。

而原位自进化关注的是另外三件事：工作流、记忆、工具。

肯定不是那么「终极」的解决方案，但也更现实可行，马上就能开始干。

记得几周前参加大模型清华论剑时，也听到姚顺雨提过类似观点：

自主学习其实已经发生了，ChatGPT会根据对话过程不断拟合聊天风格，Claude的Agent代码库95%都是模型自己写的。

云玦科技的Agent，正是采用的这种现在就能落地的「原位自进化」，但他们走的路线比较特殊——工具优先。

团队认为，工作流路线，容易对少数任务过拟合，思路一旦固化，很难泛化；

而记忆路线，又绕不开LLM天然存在的幻觉问题，一旦Token上来，偏差会像雪球一样越滚越大。

从第一性原理出发，工具才是最符合直觉的进化载体。

首先，工具直接决定了Agent的能力边界。

人类基于地球资源制造的一切奇观，都是以新的生产工具为基础。AI也一样，积累再多上下文，没有铲子，也只能坐在金矿上发呆。

其次，工具执行天然自带高质量监督信号，不需要人类标注。

工作流好不好、记忆靠不靠谱，很主观；但工具能不能用，直接看代码报没报错就行。这就是所谓的二元判别信号（Binary Feedback）。

并且，通过形式化验证的代码，可以最大程度保证安全性，放心让Agent去执行API调用、数据库读写这些底层操作。

也不用担心会不会捡了芝麻丢西瓜。待工具基本收敛后，再去补齐工作流和记忆，依然来得及。

基于上述思考，团队以「工具优先」为理念，打造了一支可实现原位自进化的Agent军团。

由四个角色组成——

首先是管理者（Manager），负责统筹大局。

在收到用户需求后，它会分析任务、拆解目标，并与现有工具库对齐，看看有没有现成工具可用。

如果发现能力不足，管理者就会指挥工匠（Tool Developer），现场捏一个工具，并立刻在当前上下文中完成配置。

准备就绪后，执行者（Executor）会拿这些工具开始处理任务。

如果发现还是搞不定，它会暂停执行，向管理者汇报。

管理者收到信息后，重复前面的流程，继续补工具、补能力，直到任务能完整跑通为止。

任务完成后，交给整合者（Integrator），对执行历史和中间结果进行整合，生成最终回答。

还有最后一步。

对话结束后，系统会对整个过程进行复盘，更新自己的工具库，并将迭代过程蒸馏、沉淀为可复用的方法论。

为了能更好地监测Agent的进化情况，团队还引入了个叫「测试时收敛」（Test-Time Convergence）的定量指标，作用和传统优化中的Training Loss类似，方便直观感受AI的学习情况。

听上去简直是个完美的解决方案，但在实际操作中遇到了问题。

如果严格按这条路线来，进化流程非常长，而且Agent必须一个任务跑完，才能进化一次，效率实在太低。

于是，团队引入了Parallel batch。

别一个一个跑了，直接把一批相似任务打包在一块，一起丢给Agent。

等着一整个Batch跑完后，Agent就能得到一个巨大的经验包，一次性喂饱知识库。

至此，一只能从零开始自我进化的Agent，诞生了。

无需任何事先训练，完全依靠工具的自进化来拓展能力，还在各种Benchmark上取得媲美SOTA的成绩。

最后再划个重点——

这套能媲美SOTA的自进化框架，还是开源的。包括上述实验的所有日志数据，评测脚本和结果，也都向社区开放。

又是一套可以直接落地部署的开源方案。

又是一项来自中国团队的研究。

只花了15万元实验经费的研究团队

这支团队来自云玦科技，这是前阿里巴巴集团副总裁彭超创办的AI公司，剑指可穿戴通用智能体。

而这篇论文的通讯作者，正是云玦科技的联合创始人兼CTO——齐炜祯。

齐炜祯曾任中关村人工智能研究院研究员、中关村学院大模型博士培养方向导师。现在虽然投身AI创业，但仍以兼职身份担任中关村学院的科研共建导师。

他是MTP架构（ProphetNet）的第一作者。这套多词元预测方法，在Meta研究机构FAIR 2024年的高影响力论文 Better & Faster Large Language Models via Multi-token Prediction中，齐炜祯第一作者研发的ProphetNet，被明确视为提出多Token预测架构的原创来源和定义出处。

工业界也在为这项研究背书，DeepSeek V3、Qwen-3-Next等多款主流大模型，当将其作为核心预训练方法。

量子位听说，DeepSeek今年年底即将发布的新架构论文，依然会引用这项工作，Qwen 3.5大概率也会继续沿用。

齐炜祯本科就读于中科大，最早学的是物理，后来转向计算机。

本科毕业后，他成为中科大与微软亚洲研究院的联培博士生，在这里积累了大量偏工程落地、以实际应用为导向的科研经验。

ProphetNet就是其中之一，除此之外，他还是Visual ChatGPT的核心作者。

该项目开源仅一周就收获了3万Star，开创性地定义了以LLM为中心的、调用多模态工具以完成复杂视觉任务的Agent范式。

在推理优化方面，他是业界首批提出KV Cache优化（EL-Attention）的学者，其核心思想与后来DeepSeek提出的MLA等高效推理部署算法高度一致。

谷歌学术显示，齐炜祯的论文引用数已超过3000，h-index为17。

这篇论文的一作有两位，都是在云玦科技实习期间参与的这项工作。李昊天，哈工大博士生，杨释钧，中科大硕士生，他们在此之前都有多段大厂的实习经历。

还听说个有意思的事。

论文里的所有数据集和实验结果都是One take，完全靠同一个架构，一口气跑出来的。

这当然说明了这项工作的稳健性。但事实是，就算结果不好，也只能认栽。

团队只设定了15万元的研究经费，也就只够跑一次完整的推理实验。

也正因为如此，他们最开始也没法选择那些依赖大量人类标注、需要反复调参的方案。

只能赌一把。

赌原位自进化，赌「工具优先」，赌Agent能自己涌现出通用能力。

开源阵营的又一核武器

对于To C场景来说，AI始终面临着「开放性、可控性、经济性」的不可能三角。

LLM虽能处理开放性问题，但幻觉始终是硬伤，这在金融、医疗等场景下是不可容忍的。更别说，还要时刻面对防不胜防的提示词注入攻击。

成本同样是个大问题。完全依赖大参数模型的CoT推理，在To C服务动辄亿级日调用量的背景下，得烧出来个天文数字。

为了解决这个问题，垂直Agent应运而生。

提前把流程给设计好，工具也是固定的，以换取极低的成本和极高的安全性。

但代价也很明显：几乎没有自由度，Agent只能处理像「预定机票」这样的标准化需求。

可真实世界的人类需求，永远是高度发散的。就拿订机票这件看似没什么技术含量的事来说：

老板想订去巴黎的机票，但他护照快过期了，先帮我查一下签证加急流程，再决定要不要订。

这还只是一个例子，不同长尾场景下需要的新Context千差万别，不可能每个都能提前覆盖到。

而一旦用户意图超出了预设流程的边界，系统要么瘫痪，要么陷入死循环。

想要同时兼顾安全性、低成本，又能处理开放性需求，唯一的路，只能是让Agent在真实工作中学习。

这正是这篇论文给出的答案——「工具优先」的原位自进化。

能力边界的问题，可以交给工具集来解决；可控性，也能通过代码的执行反馈来约束。

甚至工作流也能自进化，通过模拟大量长尾场景，靠自我博弈与经验蒸馏，不断生成新的策略组合，探索各种工具组合路径。

而一旦某条路径被反复验证有效，它还会被「固化」为静态模板。遇到用户请求，Agent可以优先匹配这些模板，如果合适，直接填参数执行即可，无需再跑一遍昂贵的大模型推理。

关键是，这套能「越用越好用」的自进化架构，是开源的。

从工业角度来看，这个项目还和常规的AI开源项目不太一样。

事实上，今天虽然已经有很多开源模型，但开源阵营的整体声势，远没达到当年Linux在互联网时代那种级别。

没办法，Linux的飞轮太容易转起来了，只要代码不报错，通过审核就能合并上线。

所以，就算Linux最开始只有1000个社区成员，他们每天能贡献的代码量也是相当恐怖的；而Linux每一次进化，又会吸引更多开发者参与，这是典型的网络效应。

AI很难这么做，反馈路径太严格，对数据质量的要求极高。

这种时候，用户增长基本对模型能力没什么贡献，最多能反映出个宏观偏好，还会持续消耗昂贵的推理算力。

这也是为什么MiniMax CEO以及不少AI创业者都认为：AI产品的用户太多，未必是好事。

但这个问题，并非没有解法。

Skills的爆火已经证明——

开源始终是一座金矿，只是需要合适的工具去开采。

Skills是开始，原位自进化，走向Zero Skill，或许是下一步。

以DeepSeek为代表的一众开源模型，已经在全球范围内铺开了足够大的市场。

如果能用原位自进化，赋予其「越用越好用」的动态优势，再去和闭源模型正面掰手腕，甚至弯道超车——

不是不可能。

论文链接：https://github.com/YunjueTech/Yunjue-Agent/blob/main/tech_report/YunjueAgentTechReport.pdf

GitHub链接：https://github.com/YunjueTech/Yunjue-Agent/

本文来自微信公众号 “量子位”（ID：QbitAI），作者：Jay ，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Skills刚火，就有零Skill的Agent来了…

会自己造工具的Agent

原位自进化框架

只花了15万元实验经费的研究团队

开源阵营的又一核武器