AI能力有了度量衡,两年两篇,00后学术新锐周乐鑫再次Nature发文
Nature 最新发表了一篇题为 General scales unlock AI evaluation with explanatory and predictive power(通用量表解锁兼具解释力与预测力的 AI 评估)的研究论文。研究团队由来自普林斯顿大学、剑桥大学、微软研究院、OpenAI、DeepSeek、Meta、瓦伦西亚理工大学等机构的 26 位名学者和工程师。
第一作者和通讯作者周乐鑫在身份信息中同时注明了四家机构:普林斯顿、剑桥大学、微软亚洲研究院和瓦伦西亚理工大学。通讯作者则包括微软亚洲研究院谢幸和剑桥大学 José Hernández-Orallo。
这是近年来规模最大、系统性最强的 AI 评估方法论研究之一。
两年两篇 Nature,第一作者是个 00 后
这已经是周乐鑫两年之内,第二次在 Nature 上发表论文了。
2024 年 9 月,年仅 23 岁的周乐鑫作为第一作者在 Nature 发表了他的第一篇论文:Larger and more instructable language models become less reliable(更大且更易于指导的语言模型变得不那么可靠了)。
这篇论文抛出了一个让当时整个 AI 圈都炸锅了的结论:更大、更新的 AI 模型,反而更不可靠。当时他和团队分析了 GPT、LLaMA、BLOOM 等多个主流 AI 模型系列,发现随着模型规模变大并加入更多人类反馈训练,它们在回答用户问题时反而变得更容易给出错误答案。更诡异的是,新一代模型(如 GPT-4)在面对超出自己能力范围的问题时,不再像老模型那样“知道自己不会”而选择回避,而是更倾向于硬着头皮给出错误答案。研究者把这种现象称为“过度自信”。
这篇论文一经发表,立即引发热议,仅 Reddit 上就有超过 20 万网友围观讨论。
刚发的这篇新论文说了什么?
继上次论文发表不到一年,周乐鑫带着他的第二篇 Nature 论文回来了。这次,他不再只是指出问题,而是提出了一套完整的解决方案。
这次的论文标题是《通用量表解锁 AI 评估的解释力和预测力》,论文一开篇就指出了一个根本性问题:现有的 AI 评估方式,就是让 AI 做题然后打分,其实根本说不清 AI 到底“有什么能力”。
比如你看到某个 AI 在数学测试上考了 90 分,这个数字能告诉你什么?什么也不能。
你无法据此推断它会不会做另一道数学题,更无法预测它能不能搞定阅读理解、代码编写、图像分析等其他任务。原因很简单:分数只是分数,它背后是能力、考试难度、题目类型等多个因素混合的产物,根本无法拆解。
这就是为什么很多人说“AI 评估是个黑箱”:你不知道 AI 为什么对,也不清楚它为什么错。
周乐鑫团队的解决方案是:给每道题目和每个 AI 都打上标签,建立一套统一的“度量衡”。
具体来说,他们设计了一套包含18 个维度的“通用量表”。这 18 把“尺子”大致分为三类:
元素能力量表(11 个):包括注意力扫描、内容表达、概念学习与抽象、逻辑推理、元认知(知道自己会不会)、思维建模等基础能力。
知识量表(5 个):涵盖常识、自然科学、应用科学、形式科学、社会科学等领域知识。
难度辅助量表(2 个):题目是否“非主流”(越非主流越难)、题目长度。
举个例子,用他们的方法,一道数学题会被标注为:需要多高的逻辑推理能力、需要什么领域的知识、题目是否“非主流”、题目有多长等等。然后让 AI 模型也用同样的维度被标注为“能力画像”——比如某个模型的逻辑推理是 4.5 级、知识是 3.8 级。当把两者一对比,就能预测 AI 能不能做这道题。
这套方法的核心思路是,不仅给 AI 的能力打分,也给每道考题的难度打标签,然后把两者放在同一套标准下比较。
研究者用 15 个主流 AI 模型和 20 个基准测试(涵盖数学、阅读理解、科学、语言等多个领域)做了大规模实验,总共分析了超过 16000 道题目和接近 30 万条标注数据。结果令人振奋:
在分布内预测(测试题目与训练题目来自同一来源):基于量表的预测器达到了0.84 的 AUROC(区分成功和失败的能力指标)和仅0.01 的校准误差。这意味着预测 AI 答对某道题的概率时,不仅判断准确,而且概率估计非常可靠。
在任务分布外预测(预测 AI 在全新任务上的表现):准确率仅略微下降到 0.81,依然远优于其他方法。
在基准分布外预测(预测 AI 在从未见过的全新基准上的表现):准确率保持在 0.75。
作为对比,基于文本嵌入(如 GloVe)或直接微调语言模型的预测方法,在这些任务上的表现都明显更低,特别是在分布外预测时下降严重。这说明新方法具有更强的泛化能力,不容易“死记硬背”训练数据中的模式。
用于解释与预测新 AI 系统及基准测试性能的流程:上半部分为系统流程:在 ADeLe 套件运行新 AI 系统,绘制维度特征曲线并提取能力画像,可选训练简易评估器;下半部分为任务流程:用标准大模型将 DeLeAn 细则应用于新任务,生成需求直方图与画像,可依托评估器预测系统在新任务上的表现。
还发现了什么?
除了提出评估方法,论文还揭示了一些出人意料的结论。
首先,很多基准测试都在“作弊”。研究者分析了 20 个主流 AI 基准测试,发现大多数测试根本没有测量它们声称要测量的东西。比如某个数学考试声称测试“数学推理能力”,但实际上对推理能力的要求并不高,反而对特定领域知识的要求很高。换句话说,这些考试可能只是在测试 AI“会不会做这道题”,而不是它具不具备真正的能力。更严重的是,很多测试存在“污染”问题——AI 在训练时可能见过类似题目,导致分数虚高。
其次,模型越大不等于越好。研究者发现了大模型缩放中的“边际递减”效应。和2024年的论文中“模型越大越差”相比,周乐鑫修正了他的表述:模型越大,收益越小,且训练方法可能比规模更关键。当模型参数量已经很大时(如超过70亿参数),继续增大带来的能力提升变得越来越小。更重要的是,某些采用“思维链”技术的模型(即在给出答案前先展示思考过程,如OpenAI o1和DeepSeek-R1),在逻辑推理上的提升远超单纯增加参数。
这篇论文为什么重要?
说起这篇论文解决的是一个“谁都知道但没人解决得了”的问题:到底怎么才能“看清”一个 AI 的能力?这个问题直接关系到 AI 能否安全可靠地进入真实应用场景。
现在的行业惯例是搞一个基准测试(比如数学题库),让 AI 去做,得个分数,然后宣布“我们公司又赢了”。但这种评估方式有三个致命问题:
第一,说不清 AI 为什么输。分数无法告诉你 AI 到底缺什么能力。
第二,不同测试没法比。数学 90 分和阅读理解 90 分,能一样吗?
第三,无法预测新任务的表现。你知道 AI 能做会数学题,但你知道它能不能写代码吗?
而周乐鑫团队提出的这套方法,相当于给 AI 能力装了一把“标尺”,让以上三个问题都得到了实质性解决。研究者甚至用它发现了大模型缩放中的“边际递减”效应。
这套方法不仅可以用来更科学地评估 AI,还能在实际部署中发挥作用:企业可以提前判断某个 AI 是否适合某项任务,安全部门可以预判 AI 可能在哪里“翻车”。
这篇论文牛在哪里?
这不是一个随随便便的“AI 刷榜”的研究。
第一,它解决了一个真实存在的大问题。AI 评测的困境不是纸上谈兵,AI 的可信度和可解释性是全行业关注的问题,各国政府、企业、监管机构都在问:我们怎么知道一个 AI 系统到底能不能信任?这篇论文提供了一个可能的答案框架。
其次,它交付了可操作的工具。论文不仅有概念,还有实物:18 个维度的详细评分标准(DeLeAn)、1.6 万道已标注的数据库(ADeLe)、开源代码和平台,这些资源现在都已经开源,其他团队看完论文就能直接用。代码和数据开放平台在这:https://github.com/Kinds-of-Intelligence-CFI/ADELE
同时,它的实证结果很有说服力,人类与 AI 标注一致性 0.86、预测模型在新测试集上远超基线。但论文也并非没有局限,18 个维度是否就完备了?GPT-4o 作为“评分员”会不会有系统性偏差?未来 AI 超越当前量表上限(5+)后如何扩展?作者们也在文中坦诚讨论了这些问题,并给出了开放平台供社区共同迭代。
一作周乐鑫,图片来源:周乐鑫个人网页
一作兼通讯的周乐鑫,目前是普林斯顿大学计算机科学系的博士研究生,师从 Peter Henderson 教授,同时与认知科学专家 Tom Griffiths 教授紧密合作。他的研究兴趣横跨计算机科学和认知科学。曾在多家顶级机构,包括微软亚洲研究院、OpenAI、Meta AI、欧盟委员会实习,这些经历让他既了解学术前沿,也清楚产业界和政策制定者的实际需求。
在 AI 发展快速迭代时,这是第一次有人系统性地、大规模地、可复现地把 AI 评测从“竞技体育”变成了“标准计量”。过去我们看排行榜,就像看奥运会成绩——只告诉你谁跑得快,不告诉你为什么。现在,我们终于有了一张“体质健康标准”表。
对于用户来说,这意味着未来当你看到一个 AI 产品的评测报告时,可能不再是“综合得分 92.3”,可能是一张清晰的画像:
“本模型在逻辑推理能力上相当于需求等级 4.1,适合处理中等复杂度的法律文书分析;在开放域知识上能力等级 3.8,不建议用于高专精度的医学诊断。”
这不正是我们一直想要的“可信 AI”的第一步吗?
论文信息
文章标题:General scales unlock AI evaluation with explanatory and predictive power
发布期刊:Nature
发布时间:2026年4月1日
本文来自微信公众号“果壳硬科技”,编辑:吴欧,36氪经授权发布。