刚刚！腾讯姚顺雨团队发布首个成果，深度揭示大模型真正瓶颈

腾讯混元技术博客首次公开。

智东西2月3日报道，刚刚，腾讯混元官网正式上线姚顺雨团队最新成果，发布了专门评测大语言模型能否从上下文（Context）中学习新知识并正确应用的基准CL-bench。

这是姚顺雨加入腾讯混元担任首席AI科学家后，其团队首次发布研究成果，也是腾讯混元技术博客首次公开。

腾讯混元技术博客及致谢部分

大模型与人类在解决问题时关键区别为，大模型只能依赖预训练阶段的静态记忆，而人可以实时根据现场情况完成任务。腾讯混元研究团队实测发现，当前的SOTA模型几乎都不会从上下文中学习，表现最好的GPT-5.1（high）任务成功率也仅有23.7%。

基于此，该团队打造CL-bench就只有一个核心目标：要求模型在解决每个任务时，都必须从上下文中学习模型预训练中不存在的新知识，并正确应用。

腾讯混元技术博客地址：

https://hy.tencent.com/research

项目主页：

www.clbench.com

01.让大模型不再死记硬背，新基准包含500个复杂上下文任务

过去几年，大语言模型进步飞快，能解开奥数级别的难题、推演复杂的编程逻辑，甚至能通过那些人类需要苦读数年才能拿下的专业资格考试。但其背后有一个关键门槛，大模型即使能在考场拿满分，但未必能胜任真实世界工作。

人类可以在执行任务中实时从眼前的环境进行学习。但大语言模型主要依赖“参数化知识”，即在预训练阶段被压缩进模型权重里的静态记忆。在推理时，模型更多是在调用这些封存的内部知识，而不是主动从当前输入的新信息中汲取营养。

因此，目前优化出的模型擅长对自己“已知”的事物进行推理，但用户需要的，却是让模型解决那些依赖于杂乱、动态变化的上下文的任务。

基于此，混元研究人员希望弥合这一差距，从根本上改变模型的优化方向，他们构建了专门评测大语言模型能否从上下文中学习新知识并正确应用的基准CL-bench。

大语言模型的范式转变

CL-bench包含由专家制作的500个复杂上下文、1899个任务和31607个验证标准。其对模型的要求为：要求模型必须在解决每个任务都从上下文中学习到模型预训练中不存在的新知识，并正确应用。

模型需要学习的知识非常广泛，包括新的领域知识、不熟悉的规则系统、复杂的产品工作流，甚至是必须从实验数据中推导归纳出的定律或结论。

所有这些知识要么是由领域专家完全新构建的，要么是取自那些不太可能出现在当前前沿模型训练数据中的小众、长尾来源。因此，模型无法通过回忆静态的参数化知识来解决任务，都要求模型从提供的上下文进行学习并应用。

具体来说，CL-bench涵盖了四种广泛的现实世界上下文学习场景：

CL-bench的上下文分类体系。

领域知识推理：上下文提供特定的领域知识，例如虚构的法律体系、创新的金融工具或小众专业知识，模型需要利用这些知识来推理并解决具体问题。

规则系统应用：上下文提供新定义的正式系统，例如新的游戏机制、数学形式体系、编程语法或技术标准，模型必须理解并应用这些规则来执行任务。

程序性任务执行：上下文提供复杂的过程系统，例如工作流、产品手册和操作指南，模型必须理解并应用这些程序性信息来完成任务。

经验发现与模拟：上下文提供复杂系统内的实验数据、观测记录或模拟环境。与前几类涉及演绎推理不同，这一类专注于归纳推理，模型必须从数据中发现潜在的定律或结论，并应用它们来解决任务。

CL-bench示例，解决这些任务要求大语言模型从提供的上下文中学习

这些类别包含了大部分现实世界工作中常见的演绎推理和归纳推理任务，能衡量模型的上下文学习能力。

02.模型成功率仅为17.2%，得出5大关键结论

研究人员在CL-bench上评估了十个主流大语言模型。

平均来看，模型仅解决了17.2%的任务，其中GPT-5.1（High）解决了23.7%的任务。

换句话说，尽管上下文中拥有解决每个任务所需的全部信息，但模型还是在绝大多数任务上都失败了。这表明当前的SOTA模型几乎都不会从上下文中学习。

十个前沿模型在CL-bench上的任务解决率

混元研究团队得出几个关键结论：

1）忽略或误用上下文是导致失败的主要原因。

许多错误并非源于信息缺失，而是因为模型忽视了上下文中的关键细节，或错误地应用了它们。在许多情况下，模型只会利用预训练学习到的静态知识来解决任务，即使上下文明确定义了新的规则、概念或程序，模型也不会学习和利用。

各模型错误类型的分布

2、长上下文推理和指令遵循是必要的，但不是充分条件。

案例分析表明，那些难以跨长上下文追踪依赖关系或难以精确遵循约束的模型，往往表现得更差。然而，即使是能够处理长输入并可靠遵循指令的模型，仍然在许多任务上失败。上下文学习需要的能力，远不止长上下文理解和指令遵循能力。

3、从实验数据和环境模拟中进行归纳推理比演绎应用更困难。

演绎任务让模型根据上下文中明确给出的规则和流程进行应用，而经验发现和环境模拟类任务则要求归纳推理，也就是从数据中总结规律或在虚拟环境中探索。模型在这类任务上的表现明显较差，任务解决率通常低于10%，且结果波动大。这表明发现规律远比应用规则更具挑战性。

GPT-5.1在高/低推理强度设置下，各子类别表现对比

4、更高的推理强度通常能提升上下文学习效果。

对部分模型来说，增加推理强度可以改善表现，使模型更深入地理解复杂上下文。例如，GPT-5.1在管理类和实验数据类任务上的表现提升约6%，但其他模型提升有限甚至可能下降，说明单靠更多推理并不足够，模型还必须能够正确吸收和组织上下文信息。

不同输入长度下模型上下文学习表现的变化趋势

5、上下文学习的难度与上下文长度相关，但短上下文也可能很复杂。

较长的上下文通常让所有模型的任务更难，这验证了长上下文处理仍是关键瓶颈。然而，即使是短上下文，如果包含信息密集、规则隐含、依赖复杂或约束严格的内容，也依然很具挑战性，说明上下文学习的难度不仅仅来源于长度，也来自于其复杂度。

CL-bench充分解释了大语言模型在真实场景中为什么经常出错：即使有了上下文工程，给模型准备好了所需的上下文，模型也会失败。如果模型不能真正从中学习，仅仅提供上下文是不够的。上下文学习作为一项模型基础的学习能力，很大程度上被忽视了。

03.上下文都是自包含，测试任务采用无污染设计

CL-bench中的每个上下文都是完全自包含（Self-contained）的，解决任务所需的所有信息都显式地提供在上下文本身之中：不需要外部检索，也不允许隐藏假设。

解决CL-bench中的任务需要模型从相应的上下文中学习新知识

为了确保性能真正反映上下文学习，而不是记忆或数据泄露，CL-bench采用了无污染（Contamination-free）设计：

虚构创作：专家创作完全虚构的内容，例如为虚构国家设计一套完整的法律体系，包括新颖的判例和法律原则，或创建具有独特语法和语义的新编程语言。

现有内容的修改：专家修改现实世界的内容以创建变体，例如更改历史事件、改变科学和数学定义，或修改技术文档和标准。

整合小众和新兴内容：专家纳入了在预训练数据集中代表性极低的小众或近期新兴内容，如前沿研究发现、新发布的产品手册或技术文档，以及来自专门领域的特定知识。

在不提供任何上下文的情况下，GPT-5.1（High）仅能解决不到1%的任务。这也证明数据是无污染的，模型若不从Context中学习，几乎完全无法解决这些任务。

此外，CL-bench的设计具有高复杂性和序列依赖性。其中，51.1%的任务需要序列依赖，意味着后续任务的解决方案取决于早期交互的结果。这种多轮次设计会增加任务难度。

平均而言，领域专家花费约20小时标注每个上下文，以确保任务构建的质量和深度。

与此同时，CL-bench中的每个任务都是完全可验证的。每个上下文平均关联63.2个验证标准，每个任务包含16.6个评估标准。

04.结语：大模型如何记忆，将成2026年核心主题

混元技术博客还提到了混元研究团队后续的关注重点，包括如何让模型提升上下文学习能力、如何让大模型从上下文中学习到的知识持久化。

如果模型的上下文学习能力能像之前其他能力那样被提升上去，人类在AI系统中的角色将发生转变：人类不再是主要的数据提供者（training data provider），而变成了上下文提供者。竞争的焦点将从“谁能把模型训练得更好”，转向“谁能为任务提供最丰富、最相关的上下文”。

他们认为，大模型如何记忆很可能成为2026年的另一个核心主题，要充分发挥大语言模型的潜力，可能需要新的架构、新的优化方式来决定“该保留什么”。

未来，一旦大模型上下文学习与记忆变得可靠，模型或许就能实现自主学习，它们将自主准备上下文，从中学习并自我巩固。

本文来自微信公众号“智东西”（ID：zhidxcom），作者：程茜，编辑：心缘，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

刚刚，腾讯姚顺雨团队首个成果发布，揭示大模型真正瓶颈

01.让大模型不再死记硬背，新基准包含500个复杂上下文任务

02.模型成功率仅为17.2%，得出5大关键结论

03.上下文都是自包含，测试任务采用无污染设计

04.结语：大模型如何记忆，将成2026年核心主题