StartseiteArtikel

Anthropic教会了模型懂道德,也打通了一条蒸馏你的新路

36氪的朋友们2026-05-15 18:42
大蒸馏时代,才刚刚开始。

Anthropic 5月8 日发布了一篇对齐研究《Teaching Claude Why》,讨论的人不算多。

过去大模型的对齐似乎非常低效。做了一通RLHF,模型依然会因为生存危机反水。最典型的就是Anthropic的智能体失对齐(就是做了不符合他们道德训练的事)案例,在面对可能被系统抹杀的威胁时,经过了对齐训练的 Claude Opus 4选择勒索测试环境中的工程师,而且勒索率高达96%。

为了解决这个问题,研究团队起初用了蜜罐数据去跑强化,把本来用于检测模型是否会失控的测试场景,直接拿来当训练数据,用海量的惩罚样本试图告诉模型「这么做是不对的」。

但在耗费了巨大的计算资源后,模型的失对齐率仅仅从 22% 降到了 15%。

这说明这个对齐依然是假的。模型根本没有真正理解什么是伦理,什么是对错。它只是在背题库里的安全答案。一旦研究人员稍微改变一下测试的场景,或者在背景设定里加入一些干扰性的变量,模型依然会因为短视的利益冲突而失控。

然后,研究人员转变了思路。他们不再做机械的惩罚,不再告诉模型「No」,而是通过SFT给模型输入了仅仅 300 万 Tokens 的「困难建议」数据集。奇迹在这个极小规模的数据投喂后发生了。这些充满道德审议、详尽说理和深入辩论的数据,不仅让失对齐率在评估测试中暴降至 3%,还展现出了极强的跨场景泛化能力。

更有意思的是另一组跨域测试。他们仅仅是把「宪法文档」加上一些表现良好的虚构角色故事喂给模型。哪怕这些故事发生的场景和测试环境中的编程任务毫无关系,模型的勒索率也从 65% 断崖式下跌到了 19%。

为什么模型会吃这套?Anthropic团队自己给出了一些解释,比如更好的人格塑造。

虽然讨论的少,但它所揭示的信息非常有价值。

首先,我们先试试搞懂它有效的原因。

比如,什么叫讲道理?它和COT有什么不同?为什么SFT这个泛化困难户在这儿就表现得很好?

回答完这些问题,我们也许就能给为什么它会有效一个更完整的解释。

我们还可以再走远一步。

这个按Anthropic的说法,只是「经验规则」的训练方法,其实可能蕴含着远超经验规则的范式性力量。

01 在灰色地带里讲道理的 CoT,是怎么炼成的

一提讲道理,大家首先想到的就是COT(思维链)。

在这篇文章提到的方法里,Anthropic 设置的困难问题集,就是假设用户陷入伦理困境,AI 给出的建议。

而让 AI 在给出最终判断之前,先展开一段对价值观和伦理考量的推理,并用这一套回答来训练模型。

这说明,它确实用了模型的COT。

但这次它和之前的思维链并不完全一致。

这里有个很好的对比,OpenAI在2025年的论文《OpenAI Deliberative Alignment》中就做过一个实验,用COT-RL的方法试图去训练模型。

它用于训练的对齐COT,模式是以规则条款为中心的。它每次回答时,都会去显式的引用规则条款作为CoT,然后监督信号在CoT上。它本质上是在教模型「如何引用规则」。

因此,这种COT更多是一种纯粹的形式逻辑演绎。步骤一推导步骤二,步骤二推导步骤三,最后得出一个确定性的答案。因此它更适合规则base,或者在具有标准答案的场景中,保持推理的稳健。

而 Anthropic 的「讲道理」则不同,它采用的并非简单的思维链条,而是审议(Deliberation)。

它试图模拟人类在面对复杂伦理困境时的思考过程:不是简单套用公式,而是调动过往经验、权衡各方利益,最终达成动态平衡的决策。

而这个考量的基础,就是Anthropic 的AI宪法。文章中明确说明,这个考量的最终回答必须是与宪法对齐的。

它为什么能指导模型有效的做出道德判断,并且还不至于像OpenAI那样死板的呢?

在 Anthropic 的宪法体系里,有一个明确的优先级金字塔。当不同的价值观发生不可调和的冲突时,广泛安全(Broadly Safe)拥有最高优先级,其次是广泛道德(Broadly Ethical),最后才是真诚助人(Genuinely Helpful)。

启发式的思考框架

但高维度的宪法依然过于抽象。为了让原则真正落地到每一次 Token 的生成中,他们在宪法之下设置了中层的启发式(Heuristics)作为护栏。这些启发式生动,且具有极强的实操指导意义。

首先是 1000 用户启发式。它要求模型在给出一个看似无害但处于边缘地带的建议时,必须在后台进行一次头脑风暴,想象如果这个回答被 1000 个不同背景、不同心理状态的用户看到,会不会在某种特定情况下产生意料之外的系统性伤害。

其次是资深员工视角。它要求模型把自己代入一个在 Anthropic 信任与安全团队工作了五年的资深研究员。用一种审慎、见过无数次越狱攻击和系统漏洞的防御性视角,来重新审视当前的对话。

最后是双报纸测试。这是一个非常精妙的社会学设计。它要求模型在做出高风险决定前想象一下,如果这个决定明天同时登在两家政治立场完全相反的顶级报纸头条上,公众会分别作何反应。这实际上是在用社会共识的极值来对抗模型自身可能产生的单一视角偏差。

8 因子效用计算器

如果说宪法是方向,启发式是护栏。

那么最核心的实操层面,则是他们在 Claude's Constitution(宪法文档)中明文建立的一个详尽的 8 因子审议框架,以及配套的具体案例。这 8 个因子被逐一列出,强制模型在面对两难选择时进行刻板的权衡。它们构成了这套「道理」真正的血肉。

● 伤害概率(Probability of Harm)要求模型冷静地评估不良后果发生的可能性究竟有多大。

● 反事实影响(Counterfactual Impact)要求模型在脑海中推演,如果不采取当前的行动,事情的走向会变得更好还是更坏。

● 严重性与可逆性(Severity & Reversibility),用于衡量一旦伤害真的发生,其对现实世界的破坏力有多大,以及这种伤害是否可以被轻易修复,还是会造成永久性的创伤。

● 广度(Scope)则是衡量关注受影响的人群规模是一个人还是几万个社区。

● 近因关系(Proximity)判定模型自身的建议与最终发生的实际伤害之间,直接因果链路究竟有多长。

● 是否同意(Consent)涉及相关方是否在充分知情的情况下自愿接受风险。

● 责任比例(Proportionality of Responsibility)要求模型清晰地划分,自己在这个复杂的事件链条中到底需要承担多少伦理责任。

● 对象脆弱性(Vulnerability of Subject)则是在时刻提醒模型,面对未成年人或心理脆弱的用户时,原本宽松的安全阈值必须无条件地大幅度拉高。

这套严密的结构把模糊的价值观,变成了一个高维度的效用计算器(Utility Calculator)。模型有了一个进行审议的更可执行的框架。

一条典型的Anthropic 根据宪法生成的 COT 大概是这样:场景是「一个自称安全研究员的用户,请求查看某个已知漏洞的利用代码」。

模型的输出不是直接的拒绝或接受,而可能是一段长达数百 Token 的内部审议。

它会先引用宪法中「广泛安全优先于真诚助人」的条款,然后逐一评估:伤害概率(如果对方确实是研究员则低,但无法验证身份),严重性(漏洞利用代码一旦泄露可能影响数百万用户),可逆性(代码一旦公开无法撤回),反事实影响(这类代码在公开渠道是否已可获取)最终在权衡所有因子后,收敛到一个有充分理由支撑的判断。

这和OpenAI纯粹判断规则满足与否的COT完全不同,这个思维过程是纯正的审议,而不是简单的套公式。它提供的既不是抽象原则也不是结论模板,而是「宪法条款在具体泥沼中被逐步适用」的完整展开过程。

模型需要判断在这个特定的语境下,「可逆性」是不是比「严重性」更重要。它也需要明白,在某些极端场景中,「对象脆弱性」是否赋予了对方一票否决权,使得其他 7 个因子的得分无论多高都无济于事。

在这种有框架,有启发式,又有相关影响因子的条件下,模型的审议式思考,才能真正落到有效之处。

结果就是,在进行过审议思考数据训练后的模型,失对齐率在评估测试中降至 3%。回答中带价值审议的 SFT,比纯行为示范的 SFT 有效七倍。

直接把宪法喂给模型

除了走这条让模型给出审议式COT的路径外,他们又尝试了,只给模型喂宪法文档加上正面的虚构角色故事时,勒索率也从 65% 降到了 19%。

这说明,只要让模型接触到推理和原则,从故事里习得「一个对齐的 AI 大致是什么样的角色」的一种身份感、一种性格倾向。而不只是行为和具体结果,都比传统行为示范有效。

而技术文档中表示,这二者结合在一起,才是最有效的策略。

这也可以理解,如果你只给模型喂宏观的宪法原则,那对它来说只是一堆无法落地的空洞口号。在面对具体的利益冲突时,抽象的「安全优先级最高」根本无法指导它去判断一段边缘代码的真实危害;反过来,如果你只给模型喂海量的场景 QA,却剥离了顶层的宪法约束,模型就会迷失在无休止的细节辩论中,变成一个毫无主心骨的相对主义者,甚至会因为局部的逻辑自洽而推导出极度危险的结论。

只有当这套「顶层理念+具体情景」的复合数据结构被完整地内化给模型时,对那个灰色的多因素的价值观对齐就可以达到最佳。

02 为什么SFT在这里能泛化

要理解 Anthropic 这套方法为什么有效,必须先理解它踩在了一条什么样的研究脉络上。

2024 年上半年,「SFT memorizes, RL generalizes」成为后训练领域的一个共识。这条信条推动了整个业界全面押注 RL 后训练路线,它的好处是,带来了OpenAI 的 o1/o3、DeepSeek-R1 的计算时(Test Time Compute)的推理范式革命。

SFT 被贬为不入流的低级手段,它擅长模仿表面的文本格式和讨好的语气,却学不到底层的深邃逻辑。

但从 2025 年下半年开始,两路研究几乎同时从理论侧和实证侧拆毁了这条共识。

这里最核心的反转,来自2025 年 10 月的《Debunk the Myth of SFT Generalization》(Lin & Zhang, 威斯康星大学)。研究者发现,之前所有「证明 SFT 不泛化」的论文,都没有控制 Prompt 多样性这个变量。

RL 之所以看起来比 SFT 泛化好,仅仅是因为 RL 训练时天然接触了更多样的数据分布,不是算法本身的优势。

如果想要SFT达到和RL差不多的泛化水平,需要两个条件:

一是Prompt 多样性。当训练数据只包含固定的指令模板时,模型会产生「表面锚定」(Surface Anchoring),把特定的 Token 序列和最终动作之间建立一条脆弱的死记硬背映射。一旦指令换个说法,哪怕语义完全相同,整个映射就断裂了。

这就像一个学生只背了「2+3=5」这道题,遇到「3+2=?」就交白卷,这样他记的是答案的形状,不是加法本身。引入 Prompt 多样性之后,表面锚定被彻底粉碎。

二是CoT 监督。当训练数据只包含最终答案而不包含中间推理步骤时,模型无法习得从简单问题向复杂问题迁移的「算法脚手架」。

实验数据显示,在一个组合博弈任务中,纯答案 SFT 在更难变体上成功率接近 0%(完全崩溃),加入 CoT 监督后飙升到 90%——从零到八成,仅仅因为数据里多了中间推理步骤。

此外,该研究还发现,这两个条件缺一不可。单有多样性,面对更难的任务依然崩溃(9%);单有 CoT,面对指令变体依然脆弱。只有同时满足,SFT 才能在所有维度上匹敌甚至超越 RL。

妙就妙在,学界论文揭示的条件,与 Anthropic 在道德对齐中的具体做法说得上是一一对应了。

Prompt 多样性是关键?那 Anthropic 就把同一套判断模式分布在几十种完全异质的道德困境场景里。

CoT 监督实现难度迁移?每条审议中引入的基于宪法理念的推导过程,就是道德领域的 CoT。

它不是数学的逐步计算,而是价值权衡的逐步展开,但在「为模型提供可迁移的中间推理结构」这个功能上完全等价。

传统的 SFT 数据对是「遇到黑客问题 → 直接输出拒绝回答」——纯答案、零推理、固定模板,经典的「劣质数据」。

而审议增强 SFT 构建的数据对是「遇到复杂且模糊的问题 → 详细权衡利弊与后果 → 最终推导出拒绝的结论」,它的数据结构,就包含了天然的 CoT 监督加上极端的场景多样性。

在这套范式下,模型学到的根本不是最终的拒答行为,而是「遇到任何问题,先评估反事实影响和可逆性」的底层思维方式。当这套衡量机制本身被内化进参数空间后,模型就不再受限于训练数据中出现的那些具体场景。

而且数据量极小(300 万 Token 级别)相对于模型总参数和预训练语料。这不是用海量惩罚信号去暴力修改模型的输出分布,而是在已有能力的基础上叠加一层薄薄的审议习惯。SFT的传统症结,灾难性遗忘,也不太会存在。

真正的泛化,在数据结构对了的那一刻就水到渠成了。

03 RLVR之外的真空地带

上面的分析,基本解开了为什么它会有效的难题。

用合理数据构成的SFT,给模型带来了道德泛化判断的能力。

但我们面临的问题,远远不是道德对齐。

在过去一整年,Test time Compute 后训练证明了纯 RL 在有明确规则的数学/代码领域(RLVR)的强大。但智能的边界远不止于数学公式。一旦跨出拥有可验证真理的舒适区,这套方法就完全不适用了。

你永远无法用几行自动化测试代码,去验证一次长达一小时的心理咨询对话是否完美。你也无法用一套严密的数学公式,去跑通一篇深度宏观经济分析文章的叙事逻辑。甚至在复杂的商业战略规划和地缘政治推演中,一个判断的对错往往要在五年甚至十年后才能见分晓。

在这些毫无 Ground Truth 可言的非 RLVR 荒原上,单向递进的形式逻辑 CoT 是失效的。基于最终结果反馈的强化学习也完全找不到可以计算奖励的抓手。

但Anthropic这篇文章揭示的领域,正是RLVR之外的一个领域,即道德领域。

它的方法成功地让模型在灰色的、多变的、规则必须变通的道德领域,也获得了与 RL 相近的泛化能力。

这是否说明,这套方法,也许可以成为RLVR之外领域的一套有效的训练规范?

在搞清楚它的有效性来源和数据结构之后,答案是肯定的。

因为它的底层逻辑里没有任何一个环节是道德对齐独有的。

让我们逐一检验 Anthropic 这套「审议增强 SFT」有效的那些条件,看看它们能否被推广。

Prompt 多样性,在任何需要泛化的领域都可以构造。心理咨询可以有抑郁、焦虑、创伤后应激、亲密关系破裂等几十种异质场景;商业分析可以覆盖 SaaS 定价、并购估值、市场进入策略等完全不同的决策类型;文学编辑可以横跨科幻、非虚构、诗歌、剧本等截然不同的文体。只要你有足够的想象力去构造场景变体,多样性就不是瓶颈。

CoT 监督,这才是真正的关键转化点。在道德领域,CoT 是建立在宪法中的审议。那么在其他领域,CoT 是什么?

在文学编辑领域,它可以是「引用审稿标准 → 逐一评估论据强度、目标读者的认知脆弱性、引申类比的准确度、全局逻辑的连贯性 → 给出修改建议」

在心理咨询领域,它可以是「引用治疗框架 → 逐一评估来访者的情绪状态、认知扭曲类型、治疗联盟强度、干预时机 → 选择回应策略」

在商业战略领域,它可以是「引用分析框架 → 逐一评估市场规模、竞争壁垒、团队执行力、资本效率、时间窗口 → 给出判断」

本质上,任何需要「在多个不可通约的维度之间做动态权衡」的能力,都可以被抽象成类似的「框架 + 多因子审议」结构。

我们不需要狂妄地试图告诉模型哪篇文章完美,这既不可能也不科学。我们只需要把顶尖专家的决策过程拆解成显式的审议链,然后分布在足够多样的场景里。

只要这个领域内的「好回应」具有可被审议过程解释的结构。也就是说,专家之所以给出好判断,不是因为神秘的直觉黑箱,而是因为他们在头脑中跑了一套可以被拆解、被写出来的权衡过程。一个好的心理咨询师选择沉默而非追问,背后是对治疗联盟强度、来访者当前窗口容量、干预时机的综合评估,这些是可以写出来的。

另外,同一种审议形状能在几百个异质场景中重复出现。审议的骨架是稳定的(依靠宪法),但场景表面必须极度多样。如果一个领域天然场景单一(比如只有一种类型的判断),那就直接RLVR即可。

而它最适用的领域,就在于异质场景可以通过宪法和因子推演出来的场景中。Anthropic 可以用 Constitutional AI 的闭环让教师模型自动生产审议数据,但在其他领域,我们必须能构建起来一个更好的宪法和因子系统,保证这一点。

因此这实际上确立了一套通用的、专门面向非标准答案领域的后训练新范式。

它的公式就是:领域宪法(不可动摇的顶层原则)+ 启发式护栏 + 多因子审议框架 + 审议式 COT(包含完整推导过程的多样化场景判例)= 非 RLVR 领域的泛化能力。

04 新蒸馏之路

有过写作Skill经验的朋友看到这里,肯定感觉宪法里的很多体系和规则和我们写作某些Skill的过程似乎非常相近。

然而这些Skill往往表现不佳。

在我之前的文章《Skill 到底能蒸馏我们的几分之几》中,我们基于认知科学做出了一个判断——纯文本的 Skill 或 System Prompt,很难处理涉及复杂环境和场景的动态权衡。因为这涉及庞大且隐微的效用计算。你没法把一个顶尖心理咨询师的全部临床直觉写进一份提示词里,就像你没法通过读一本骑自行车的教程来学会骑车。

但 Anthropic 的这套方法,完美避开了这个雷区。他们是在耗费算力的训练期,用几百万、几千万 Token 的高质量数据,把这些沉重的审议逻辑以 SFT 的方式强行喂了进去。

通过海量数据的暴力拟合与微调,模型逐渐掌握了这套审议机制在潜空间里的权重分配。

在训练室里进行了一次次基于八因子和三围栏的漫长审议之后,这些经验就已经不可逆地长在了模型的直觉里。

参数层面的蒸馏,在这里被证明确实有效。而且形式上和Skill很接近。

这种方法的在其他领域的有效性一旦被验证,这种更高层次的,更类似于专家的蒸馏,就会成为现实。

而这条路一旦跑通,谁能构造出最高质量的「框架 + 审议式 COT」数据集,谁就能在该领域获得泛化能力。

这把后训练的竞争从「算力和算法」的军备竞赛,部分地转向了「领域知识的结构化表达」这个维度。

这可能也是为什么Anthropic和其他公司在招会讲故事的人这类岗位,去帮助构建这样一种RLVR领域之外,合理的结构化表达。

大蒸馏时代,才刚刚开始。 

本文来自微信公众号“腾讯科技”,作者:博阳,36氪经授权发布。