重磅！AI能力有了度量衡，00后学术新锐周乐鑫两年两篇Nature再发文

这篇论文牛在哪里？

Nature 最新发表了一篇题为 General scales unlock AI evaluation with explanatory and predictive power（通用量表解锁兼具解释力与预测力的 AI 评估）的研究论文。研究团队由来自普林斯顿大学、剑桥大学、微软研究院、OpenAI、DeepSeek、Meta、瓦伦西亚理工大学等机构的 26 位名学者和工程师。

第一作者和通讯作者周乐鑫在身份信息中同时注明了四家机构：普林斯顿、剑桥大学、微软亚洲研究院和瓦伦西亚理工大学。通讯作者则包括微软亚洲研究院谢幸和剑桥大学 José Hernández-Orallo。

这是近年来规模最大、系统性最强的 AI 评估方法论研究之一。

两年两篇 Nature，第一作者是个 00 后

这已经是周乐鑫两年之内，第二次在 Nature 上发表论文了。

2024 年 9 月，年仅 23 岁的周乐鑫作为第一作者在 Nature 发表了他的第一篇论文：Larger and more instructable language models become less reliable（更大且更易于指导的语言模型变得不那么可靠了）。

这篇论文抛出了一个让当时整个 AI 圈都炸锅了的结论：更大、更新的 AI 模型，反而更不可靠。当时他和团队分析了 GPT、LLaMA、BLOOM 等多个主流 AI 模型系列，发现随着模型规模变大并加入更多人类反馈训练，它们在回答用户问题时反而变得更容易给出错误答案。更诡异的是，新一代模型（如 GPT-4）在面对超出自己能力范围的问题时，不再像老模型那样“知道自己不会”而选择回避，而是更倾向于硬着头皮给出错误答案。研究者把这种现象称为“过度自信”。

这篇论文一经发表，立即引发热议，仅 Reddit 上就有超过 20 万网友围观讨论。

刚发的这篇新论文说了什么？

继上次论文发表不到一年，周乐鑫带着他的第二篇 Nature 论文回来了。这次，他不再只是指出问题，而是提出了一套完整的解决方案。

这次的论文标题是《通用量表解锁 AI 评估的解释力和预测力》，论文一开篇就指出了一个根本性问题：现有的 AI 评估方式，就是让 AI 做题然后打分，其实根本说不清 AI 到底“有什么能力”。

比如你看到某个 AI 在数学测试上考了 90 分，这个数字能告诉你什么？什么也不能。

你无法据此推断它会不会做另一道数学题，更无法预测它能不能搞定阅读理解、代码编写、图像分析等其他任务。原因很简单：分数只是分数，它背后是能力、考试难度、题目类型等多个因素混合的产物，根本无法拆解。

这就是为什么很多人说“AI 评估是个黑箱”：你不知道 AI 为什么对，也不清楚它为什么错。

周乐鑫团队的解决方案是：给每道题目和每个 AI 都打上标签，建立一套统一的“度量衡”。

具体来说，他们设计了一套包含18 个维度的“通用量表”。这 18 把“尺子”大致分为三类：

元素能力量表（11 个）：包括注意力扫描、内容表达、概念学习与抽象、逻辑推理、元认知（知道自己会不会）、思维建模等基础能力。

知识量表（5 个）：涵盖常识、自然科学、应用科学、形式科学、社会科学等领域知识。

难度辅助量表（2 个）：题目是否“非主流”（越非主流越难）、题目长度。

举个例子，用他们的方法，一道数学题会被标注为：需要多高的逻辑推理能力、需要什么领域的知识、题目是否“非主流”、题目有多长等等。然后让 AI 模型也用同样的维度被标注为“能力画像”——比如某个模型的逻辑推理是 4.5 级、知识是 3.8 级。当把两者一对比，就能预测 AI 能不能做这道题。

这套方法的核心思路是，不仅给 AI 的能力打分，也给每道考题的难度打标签，然后把两者放在同一套标准下比较。

研究者用 15 个主流 AI 模型和 20 个基准测试（涵盖数学、阅读理解、科学、语言等多个领域）做了大规模实验，总共分析了超过 16000 道题目和接近 30 万条标注数据。结果令人振奋：

在分布内预测（测试题目与训练题目来自同一来源）：基于量表的预测器达到了0.84 的 AUROC（区分成功和失败的能力指标）和仅0.01 的校准误差。这意味着预测 AI 答对某道题的概率时，不仅判断准确，而且概率估计非常可靠。

在任务分布外预测（预测 AI 在全新任务上的表现）：准确率仅略微下降到 0.81，依然远优于其他方法。

在基准分布外预测（预测 AI 在从未见过的全新基准上的表现）：准确率保持在 0.75。

作为对比，基于文本嵌入（如 GloVe）或直接微调语言模型的预测方法，在这些任务上的表现都明显更低，特别是在分布外预测时下降严重。这说明新方法具有更强的泛化能力，不容易“死记硬背”训练数据中的模式。

用于解释与预测新 AI 系统及基准测试性能的流程：上半部分为系统流程：在 ADeLe 套件运行新 AI 系统，绘制维度特征曲线并提取能力画像，可选训练简易评估器；下半部分为任务流程：用标准大模型将 DeLeAn 细则应用于新任务，生成需求直方图与画像，可依托评估器预测系统在新任务上的表现。

还发现了什么？

除了提出评估方法，论文还揭示了一些出人意料的结论。

首先，很多基准测试都在“作弊”。研究者分析了 20 个主流 AI 基准测试，发现大多数测试根本没有测量它们声称要测量的东西。比如某个数学考试声称测试“数学推理能力”，但实际上对推理能力的要求并不高，反而对特定领域知识的要求很高。换句话说，这些考试可能只是在测试 AI“会不会做这道题”，而不是它具不具备真正的能力。更严重的是，很多测试存在“污染”问题——AI 在训练时可能见过类似题目，导致分数虚高。

其次，模型越大不等于越好。研究者发现了大模型缩放中的“边际递减”效应。和2024年的论文中“模型越大越差”相比，周乐鑫修正了他的表述：模型越大，收益越小，且训练方法可能比规模更关键。当模型参数量已经很大时（如超过70亿参数），继续增大带来的能力提升变得越来越小。更重要的是，某些采用“思维链”技术的模型（即在给出答案前先展示思考过程，如OpenAI o1和DeepSeek-R1），在逻辑推理上的提升远超单纯增加参数。

这篇论文为什么重要？

说起这篇论文解决的是一个“谁都知道但没人解决得了”的问题：到底怎么才能“看清”一个 AI 的能力？这个问题直接关系到 AI 能否安全可靠地进入真实应用场景。

现在的行业惯例是搞一个基准测试（比如数学题库），让 AI 去做，得个分数，然后宣布“我们公司又赢了”。但这种评估方式有三个致命问题：

第一，说不清 AI 为什么输。分数无法告诉你 AI 到底缺什么能力。

第二，不同测试没法比。数学 90 分和阅读理解 90 分，能一样吗？

第三，无法预测新任务的表现。你知道 AI 能做会数学题，但你知道它能不能写代码吗？

而周乐鑫团队提出的这套方法，相当于给 AI 能力装了一把“标尺”，让以上三个问题都得到了实质性解决。研究者甚至用它发现了大模型缩放中的“边际递减”效应。

这套方法不仅可以用来更科学地评估 AI，还能在实际部署中发挥作用：企业可以提前判断某个 AI 是否适合某项任务，安全部门可以预判 AI 可能在哪里“翻车”。

这篇论文牛在哪里？

这不是一个随随便便的“AI 刷榜”的研究。

第一，它解决了一个真实存在的大问题。AI 评测的困境不是纸上谈兵，AI 的可信度和可解释性是全行业关注的问题，各国政府、企业、监管机构都在问：我们怎么知道一个 AI 系统到底能不能信任？这篇论文提供了一个可能的答案框架。

其次，它交付了可操作的工具。论文不仅有概念，还有实物：18 个维度的详细评分标准（DeLeAn）、1.6 万道已标注的数据库（ADeLe）、开源代码和平台，这些资源现在都已经开源，其他团队看完论文就能直接用。代码和数据开放平台在这：https://github.com/Kinds-of-Intelligence-CFI/ADELE

同时，它的实证结果很有说服力，人类与 AI 标注一致性 0.86、预测模型在新测试集上远超基线。但论文也并非没有局限，18 个维度是否就完备了？GPT-4o 作为“评分员”会不会有系统性偏差？未来 AI 超越当前量表上限（5+）后如何扩展？作者们也在文中坦诚讨论了这些问题，并给出了开放平台供社区共同迭代。

一作周乐鑫，图片来源：周乐鑫个人网页

一作兼通讯的周乐鑫，目前是普林斯顿大学计算机科学系的博士研究生，师从 Peter Henderson 教授，同时与认知科学专家 Tom Griffiths 教授紧密合作。他的研究兴趣横跨计算机科学和认知科学。曾在多家顶级机构，包括微软亚洲研究院、OpenAI、Meta AI、欧盟委员会实习，这些经历让他既了解学术前沿，也清楚产业界和政策制定者的实际需求。

在 AI 发展快速迭代时，这是第一次有人系统性地、大规模地、可复现地把 AI 评测从“竞技体育”变成了“标准计量”。过去我们看排行榜，就像看奥运会成绩——只告诉你谁跑得快，不告诉你为什么。现在，我们终于有了一张“体质健康标准”表。

对于用户来说，这意味着未来当你看到一个 AI 产品的评测报告时，可能不再是“综合得分 92.3”，可能是一张清晰的画像：

“本模型在逻辑推理能力上相当于需求等级 4.1，适合处理中等复杂度的法律文书分析；在开放域知识上能力等级 3.8，不建议用于高专精度的医学诊断。”

这不正是我们一直想要的“可信 AI”的第一步吗？

论文信息

文章标题：General scales unlock AI evaluation with explanatory and predictive power

发布期刊：Nature

发布时间：2026年4月1日

本文来自微信公众号“果壳硬科技”，编辑：吴欧，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

AI能力有了度量衡，两年两篇，00后学术新锐周乐鑫再次Nature发文

两年两篇 Nature，第一作者是个 00 后

刚发的这篇新论文说了什么？

还发现了什么？

这篇论文为什么重要？

这篇论文牛在哪里？

论文信息