HomeArticle

DeepSeek 首登《自然》封面:中国大模型创造新历史,做了 OpenAI 不敢做的事

爱范儿2025-09-18 17:50
DS就是国产*好的模型

就在今天,DeepSeek 的大型语言模型 DeepSeek-R1 的研究成果,作为封面文章登上了国际顶尖科学期刊《Nature》。

图片链接:https://www.nature.com/nature/volumes/645/issues/8081 

和 OpenAI 那些动辄上千万美元, 这个只花了 30 万美元训练出来的国产 AI 模型 ,曾经不仅一度引发美股震荡,现在还登上了 Nature 的最新封面。 

Nature 封面评语 

此次登上 Nature 封面的文章,是 DeepSeek 年初在 arXiv 公布的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,即 R1 的技术论文。 

论文作者名单,梁文锋是通讯作者 

虽然大体上和年初那篇类似,但是补充了相当多细节。 

正文只有双栏 11 页,补充材料却来到了 83 页;而同行评审,就是审稿人与 DeepSeek 团队就论文某些问题进行讨论的记录(一般叫 rebuttal,反驳),也有 64 页之多。 

这些新公开的资料,让我们看到了 DeepSeek R1 详细的训练流程, 以及团队首次披露了,训练 R1 推理能力的关键成本,仅 29.4 万美元。

在同行评审的文件中,DeepSeek 更是回答了, 像是之前质疑 R1 的成功,是否依赖于「蒸馏」,或者说「抄袭」了像 OpenAI 等更强模型的输出等问题 。 

我们没有故意加入 OpenAI 生成的内容,所有训练数据都是通过网页抓取。 

为什么是 DeepSeek 登上 Nature 封面? 

可能你也会想问,DeepSeek R1 不算是全球范围里面最强的大语言模型,为什么是 DeepSeek 登上了 Nature。 

Nature(自然)杂志是全球影响力最高的期刊,理工类学科常说的 CNS 即上图中的 Cell、Nature、以及 Science。而封面的含金量,更是 Top 中的 Top。 

在 AI 行业,和计算机视觉和模式识别类顶级会议 CVPR(上图中排名第二)不同,Nature 封面有着特殊的象征意义,它不仅是科研成果的认可,更像是一种科学殿堂的最高认可。 

过去几年,OpenAI、Anthropic、Google 都发布过各种技术报告(technical report),但都没有把自家大模型送上同行评审。原因很简单: 

  • 一方面,同行评审意味着要公开更多细节,可能涉及商业机密。
  • 另一方面,大模型的很多宣传容易被质疑,同行评审则要求你必须提供证据、接受外部质询。

而这一次,DeepSeek 把 R1 模型送进了学术体系,让 8 位独立专家逐条审查,并公开了审稿意见与作者回复。

这不仅让 R1 的科学价值获得了认可,也为整个行业立下了一个新标杆。 大模型不只是公司的黑箱,它们也可以经受专业科学的检验 。 

这是 AI 走向科学化的历史性时刻,也是 DeepSeek 为什么能登上 Nature 封面的重要原因。 

开源 AI 平台 HuggingFace 的机器学习工程师 Lewis Tunstall 在审稿时表示, 

这是一个非常受欢迎的先例,如果我们没有公开分享,这一过程大部分内容的规范,就很难评估这些系统是否带来风险。 

Nature 官方也专门发文,呼吁其他公司,也把他们的大语言模型交给同行评审。 

在这篇推荐文章里面,Nature 编辑专门提到了同行评审的好处。 

依赖独立研究人员的同行评审,是平息人工智能行业炒作的一种方式。 

和我们常看的技术报告、技术博客(行业内叫做模型卡/系统卡)不同,同行评审不会单向接受信息,而是要确保作者证明他们的主张。就像我们平时看一些大语言模型的发布会,他们都声称自己的模型,在某些基准测试上拿到了第一名。 

但同行评审,就能制衡 AI 开发者,避免让他们选择能最好展示其模型性能的基准测试,来为自己「批改作业」; 因为基准测试是可以被操纵,以高估模型的性能 。 

同行评审文件内一些关键的问答,我们节选了一些放在这里。 

Q:基础模型(DeepSeek-V3-Base)可能在预训练阶段就接触了大量由其他模型(如 OpenAI 的模型)生成的推理数据,导致 RL 的效果被夸大。 

A:我们选择了一个在任何高级推理模型公开发布之前,就已经发布的模型 Qwen2-7B 作为基础模型,实验结果显示,经过我们的纯强化学习方法训练后,Qwen2-7B-Zero 的推理能力,远超其原始版本和同期的 GPT-4o 模型。 

这个实验有力地证明了,我们的 RL 框架能够自主地在未受污染的基础模型上,激发出高级推理能力,而不是简单地复现预训练数据中的模式。 

Q:与评估污染相关,但性质不同,我们想知道是否存在某些示例,是使用其他公司模型生成的可能性,正如媒体所暗示的那样。

像是直接或间接从基准测试数据,或互联网获取的数据,有可能用于训练或强化学习的数据集,包含由 OpenAI 的模型,或其他提供商生成的内容。 

这将使 DeepSeek 的模型成为 OpenAI 模型的一部分「蒸馏」。 

A:我们了解到,模型蒸馏是 DeepSeek 模型开发中,被广泛讨论的话题。 

在预训练阶段,我们承认所收集的网络数据,可能包含由高级模型(如 GPT-4)生成的内容。然而,鉴于互联网上合成内容的广泛存在,这在当前的大规模语言模型训练中难以避免。 

但是,这篇论文的核心贡献 R1-Zero,并未涉及任何来自高级模型的蒸馏。强化学习组件是独立训练的,并且不依赖于诸如 GPT-4 等模型的输出或指导。 

同行评审文件全文链接 🔗: https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM2_ESM.pdf

能经得起评审,是因为技术也足够强 

除了是首个经过独立同行评审的大语言模型,DeepSeek R1 自身的技术突破也毫不逊色。 

DeepSeek-R1 最核心的贡献是证明了纯强化学习(pure reinforcement learning, RL) 可以有效激发 LLM 的推理能力,无需依赖人类标注的思维路径,自己学会推理。 

强化学习框架 

传统的大模型提升推理能力,往往需要人类手动提供,大量思考链条(chain-of-thought),让模型模仿。但这样的问题是,需要人工标注,成本高,不可持续;其次是,受限于人类思维,模型只能学人类的套路,难以探索新的推理路径。 

R1 的方法完全不同,它只给模型一个奖励信号,「答案对了就加分,错了就减分」;不规定中间推理步骤,让模型自己去探索。 

结果是,R1 在训练过程中出现了类似「自我反思、验证、动态调整」的行为。比如,它会在回答过程中说「等等,我需要重新检查这一步」,这种反思片段就是所谓的涌现式推理能力。 

DeepSeek-R1 和 DeepSeekR1-Zero 的基准性能,与不同数据集上的人类得分进行了比较。 

在公开测试中,R1 在数学竞赛 AIME 2024 的准确率达到 77.9%,远高于人类平均水平,甚至在部分代码和理科推理任务上,超过了 GPT-4。 

在更详细的补充材料里面,DeepSeek 公开了 R1 的训练细节、如何从 R1-Zero 进化到 R1 的具体路径、以及关于 R1 全面的评估测试,包括多语言、安全和风险控制、稳定性等等。 

补充材料链接🔗(通讯作者也是梁文锋): https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM1_ESM.pdf 

由于 R1 是今年一月份的工作,所以里面的内容,可能也不是 DeepSeek 或者行业内,目前最新的方法。 

但我们可以从这份详细的报告中,看到 R1 究竟是怎么被创造出来,又是怎么做到了大家都喜欢的「嗯,让我先想一想」推理。 

R1-Zero:极致的推理模型 

DeepSeek R1 的前身,是一个追求极致推理、通过 AI 模型自主「野蛮生长」诞生的 DeepSeek R1-Zero。 

R1-Zero 训练的起点是 DeepSeek-V3 Base 模型,这是一个包含 6710 亿总参数(每次激活 370 亿)的混合专家(MoE)架构模型,已经在海量的中英文网页,和电子书数据上完成了预训练。 

传统的监督微调,会需要手工给出具体的推理轨迹。图中为与代码相关的推理数据中的示例 SFT 轨迹。

和传统的大模型微调第一步,监督微调(SFT)不同,DeepSeek 直接跳过了这一步。他们假设,如果一开始就用人类撰写的标准解题步骤,来训练模型,反而会限制模型的探索空间,模型的性能上限会被我们人类的认知所束缚。 

纯粹的强化学习(Pure RL)

研究团队为模型设计了一个极其简洁的强化学习框架,只告诉它最关键的规则。 

任务格式:模型被要求以固定格式输出,即必须先生成被 think 标签包裹的「思考过程」,然后再输出被 answer 标签包裹的「最终答案」。 

奖励信号:这是整个方法论的精髓。奖励信号完全基于规则,且只关心结果。

  • 准确率奖励:answer 标签里的最终答案是否正确?对于数学题,就看答案是否与标准答案完全一致;对于代码题,就看生成的代码能否通过所有预设的测试用例。
  • 格式奖励:思考过程是否被正确地封装在 think 标签内?
  • 关键点:整个过程中,对于 think 标签里的思考过程本身,没有任何对错评判。模型可以天马行空,用任何它认为有效的方式去思考,只要最终答案正确即可。

能力的涌现与自我进化

在这种「只问结果、不问过程」的训练下,R1-Zero 展现了惊人的进化: 

训练过程中 DeepSeek-R1-Zero 的 AIME 准确率和输出长度 性能的提升 :在AIME 2024数学竞赛基准上,模型的解题准确率,从最初的 15.6% 一路飙升至 77.9%,远超人类参赛者的平均水平。 

思考的深化 :模型自发地学会了用更长的思维链(Chain-of-Thought, CoT)来解决问题。其平均响应长度随着训练稳步增加,从几千个 token 增长到上万个 token,意味着它在思考上花费了更多时间。 

高级策略的涌现 :最令人感到惊喜的是,模型自主发展出了高级推理策略,如自我反思(self-reflection)和系统性地探索替代方案。

训练过程中推理行为的演变。训练过程中的代表性反思词频率(左);单词「等待」在整个训练过程中的具体出现模式(右) 

论文中一个经典的顿悟时刻(Aha Moment)显示,模型在解题中突然输出「等一下……」,然后重新评估并修正了自己的解题路径。 

补充材料中的图表也用数据证明,在训练过程中,模型使用「等一下」、「这里出现了错误」、「我需要验证一下」等反思性词语的频率显著增加。 

模型学会以拟人化的语气重新思考,DeepSeek 说,这对我们团队来说也是一个顿悟时刻,见证了强化学习的力量与美感。 

R1:将推理能力融入产品 

R1-Zero 证明了纯强化学习的巨大潜力,但它还不是一个能直接面向用户的成熟产品。 

它存在明显的问题,思考过程的可读性很差,有时会在一个思维链中混用中英文,并且由于训练完全聚焦于推理,R1-Zero 在写作、开放域问答等通用能力上表现平平。 

于是,研究团队设计了一套精密的多阶段训练流程,目标是将 R1-Zero 的强大推理能力与优秀的用户体验结合起来,最终诞生 DeepSeek-R1。 

这个过程可以清晰地分为四步,每一步都对应着一个中间模型(Dev1, Dev2, Dev3)。 

DeepSeek-R1 通过强化学习,激励 LLMs 进行推理,展示从 R1-Zero 到 Dev1,Dev2,Dev3,再到最后的 R1。 

第一步:冷启动 SFT(诞生 R1-Dev1)

解决语言混用和可读性差的问题,教模型好好说话。 

首先,从 R1-Zero 生成的大量推理轨迹中,筛选出那些答案正确,且格式工整的样本。然后,动用人类标注员和 DeepSeek-V3 模型,将这些原始的、机器化的思考过程,改写成更符合人类对话习惯、采用第一人称的流畅文本。

这个过程产生了数千条高质量的「冷启动」数据;最后,用这些「冷启动」数据对基础模型进行监督微调(SFT)。 

R1-Dev1 在指令遵循等通用能力上大幅提升,但因为冷启动数据集规模有限,它在 AIME 等高难度推理任务上的性能反而有所下降。 

第二步:第一轮强化学习(诞生 R1-Dev2)

在保持人话风格的基础上,重新强化其推理能力。 

对 R1-Dev1 进行强化学习。这次的奖励信号除了基于规则的准确率奖励外,创造性地加入了一个语言一致性奖励如果模型在处理中文问题时,思维链中中文词汇比例越高,奖励就越多,以此来纠正语言混用问题。 

结果 R1-Dev2 的推理能力(尤其在数学和代码上)得到显著增强,恢复甚至超过了 R1-Zero 的水平。 

第三步:大规模监督微调(诞生 R1-Dev3)

全面扩展模型的知识面和通用能力,让它成为「通才」。 

将约60万条由 R1-Dev2 生成的推理数据,与约 20 万条非推理数据(如写作、通用问答、代码工程等)混合在一起,进行一次大规模的SFT。 

结果是 R1-Dev3 在AlpacaEval 2.0 等通用和代码工程基准上获得了显著的性能提升。 

在 LiveCodeBench 数据集中,不同难度问题上 DeepSeek-R1 各阶段的实验结果。 

第四步:第二轮强化学习(最终形态 DeepSeek-R1)

进行最终的精装修,使模型行为与人类偏好(有用性、无害性)对齐。 

方法:对 R1-Dev3 进行最后一轮全面的强化学习。这次的奖励系统最为复杂,是一个组合。 

对于推理任务,继续使用基于规则的奖励。对于通用任务,则启用基于模型的奖励。 

DeepSeek 团队为此专门训练了两个奖励模型,一个「有用性」奖励模型,和一个「安全性」奖励模型,它们基于人类偏好数据来为模型的回答打分。 

最终的 DeepSeek-R1 诞生。虽然它的推理能力只有边际提升(因为此前已足够强大),但在通用指令遵循和用户偏好基准上提升巨大,AlpacaEval 2.0 提升 25%,Arena-Hard 提升 17%。 

此外,论文中还提到了关键的技术 GRPO算法,整个强化学习过程由 DeepSeek 自研的 GRPO 算法驱动。相比传统的 PPO 算法,GRPO 通过「组内竞争」来估算优势,它不需要训练一个额外的价值模型,从而简化了流程并降低了资源消耗。 

最终 R1 的训练成本,也是空前的节省,只花了 29.4 万美元。 

几周前,a16z 的合伙人 Martin Casado 说,估计 80% 的湾区初创公司,都在基于中国开源模型进行开发。下方的图表显示,在 HuggingFace 上,国产模型的下载量已超过美国模型的下载量。 

图片来源: https://www.interconnects.ai/p/on-chinas-open-source-ai-trajectory 

登上 Nature 封面,对 DeepSeek 来说可能是一个极大的认可;但也许,这只是一个开始。 

相关链接汇总: 

🔗 DeepSeek Nature 论文: https://www.nature.com/articles/s41586-025-09422-z

🔗  补充材料: https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM1_ESM.pdf

🔗  同行评审: https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM2_ESM.pdf

🔗  Nature 编辑文章: https://www.nature.com/articles/d41586-025-02979-9

🔗  Nature 新闻: https://www.nature.com/articles/d41586-025-03015-6

🔗  DeepSeek 原 arXiv 论文: https://arxiv.org/pdf/2501.12948 

本文来自微信公众号“APPSO”,作者:发现明日产品的,36氪经授权发布。