Fable 5自带反蒸馏机制：检测即降智，误触率高得离谱

文章详情

提示词一错，Fable变Opus

都先别急着吹！

Claude刚刚发布的新模型Fable 5，很多人可能压根就用不上！

有不少网友实测发现，Fable 5的安全护栏检测机制的触发几率似乎比官方宣称的不到5%严格得多。

无论是普通编码任务。

还是简单打个招呼，都有可能被自动路由回老模型Opus 4.8。

更离谱的是，我自己也中招了。我让Claude帮我搜点资料，丰富一下背景。

结果它想了两步，啪——切Opus了。

换句话说。你以为自己在用Anthropic刚发布的最强模型，实际上聊着聊着，对面已经偷偷换人了。

而且不光是安全检测容易误伤，更绝的还在后头：

Anthropic还在长达319页的系统卡里埋了一套防蒸馏机制。

如果系统怀疑你想拿Claude的输出训练自己的AI模型，它甚至不会告诉你发生了什么，而是直接降低Fable的回答质量。

可以说，前一手防你作恶，后一手防你抄作业，相当符合A社的一贯风格。

寓言怎么老变成章鱼？

先给今天没刷新闻的大伙补个课。

今天凌晨，Anthropic终于发布了预热许久的两款模型——

「神话」（Mythos）和「寓言」（Fable）。

其中，Fable 5最大的看点，是Anthropic第一次把Mythos级别能力向普通用户开放。

而Fable与正式版Mythos的差别在于，多了一个安全护栏。

目前，Fable免费开放给所有人到22号（22号只能通过API用），Mythos则还是开放给Claude部分的合作伙伴。

在官方介绍里，Fable的软件工程、知识工作、视觉理解能力全面增强，超过此前所有公开发布的Claude模型。

一句话速通理解就是，这俩就是现在的大模型天花板，各方面能力都已经到顶了。

新模型一经发出，刚入职A社的卡帕西第一时间夸了一波。

Claude Code之父Boris也对它赞不绝口。

不过，厉害归厉害，真让大伙用起来后，才发现，这寓言讲着讲着，老变成章鱼（Opus）。

原因也简单。

Anthropic给Fable装了一套分类器，只要它觉得你聊的是网络安全、生物、化学，或者想拿Claude蒸馏训练自家模型，就会自动把会话切给Opus 4.8。

这条规则白纸黑字写在系统卡第12页。

实际体验中，切换发生在Fable的思考过程中，当它自己感觉不对劲，也不会问你，就直接切了。

如果想继续用？要么把提示词改到它满意，要么重开一个窗口。

官方在技术博客里说，这套检测平均触发率不到5%。但网友很快发现，这5%不像5%。

有人表示，自己就是分析个代码，也被切了。

搞安全审计的更是直呼被针对，活儿没法干了。

还有人说压根用不了，审查代码库都会被Fable拒绝。

要说，最离谱的可能就是有网友把Fable自己的系统卡丢给它，让他解读一下，它也给你切了。

还有一名从事生物医学的科学家表示，这压根都没法用Fable工作，因为诠释违禁词。

而这并不是孤例，不少生物学网友都反映，Fable压根难以使用。

Boris在评论区承认了这个问题，表示正在处理。

这事儿真正微妙的地方在于，Fable在上面三种高风险场景下，至少会告诉你一声：

“哥们儿，我给你换模型了。”

但如果它怀疑你在研究怎么训练下一代大模型，那就进入另一个模式。

系统卡写明，重点针对的场景包括：限制Claude在前沿LLM开发请求上的有效性，例如搭建预训练流水线、分布式训练基础设施，或者ML加速器设计。

在这种场场景下，Claude不切模型，不弹提示，不通知用户，而是坐在那里，悄悄把自己调笨一点。

Anthropic原文写得很学术：Prompt Modification、Steering Vector、PEFT。（系统卡第12页）

翻译成人话就是你以为自己在跟满血版Fable聊天，实际上对面已经偷偷开了省电模式。

A社这波，属实是把护城河直接焊进推理链里了。

至于系统怎么判断，系统卡第58-59页也写明白了。

Fable背后跑的是一套两阶段检测系统：

第一层探针会直接检查模型内部激活值（activation），筛查所有请求；第二层再交给独立分类器判断风险。

一旦命中，客户端就会自动切换到Opus 4.8。

Anthropic甚至在报告里承认，由于分类器在网络安全测试中几乎总会触发，因此Fable 5在网络安全任务上的实际表现，基本等同于Opus 4.8。

一言以蔽之呢，就是Fable 5目前也还是一个有条件释放的模型：

大部分场景享受Mythos 5级别能力，但在高风险领域自动降级为Opus 4.8的能力水平。

为啥Claude要这么干？

今天新模型上线，额度同步重置，大家上手之后越用越觉得不对劲，吐槽也越来越多，主要集中在两件事上。

第一件事，是前面提到的安全护栏触发频率。Anthropic说平均不到5%的会话会触发回退，但不少用户的体感显然不是5%。

第二件事，则是Fable的使用策略。

这次Anthropic并没有完全放开，而是采用了限量开放的方式。

与此同时，Fable的token消耗成本也明显高于Opus，接近后者两倍。

这就让不少订阅用户有点犯嘀咕：

如果最好的模型既有额度限制，又不一定能稳定用到，那以后会不会走向按量收费？

当然，也有人把原因归结到商业层面。

有网友认为，Anthropic现在正处在IPO前的关键阶段，需要向投资人证明自己依然掌握着最前沿的模型能力。

所以最强模型可以放出来展示，但不能毫无保留地放出来。

还有研究人员担心另一件事。

如果模型一旦识别到前沿LLM研发相关内容，就主动降低回答质量，那对学术研究和技术交流显然不是个好消息。

更关键的是，用户根本不知道这一切正在发生。它不会弹窗，不会提醒，不会告诉你答案为什么突然变差。

你只会觉得：今天的Claude，好像突然没那么聪明了。

对此，AI研究员Nathan Lambert的评价也很直接：

模型厂商给能力加护栏或许不可避免。

但至少应该告诉用户，前沿能力是什么时候被撤掉的。

参考链接：

[1]https://www.anthropic.com/news/claude-fable-5-mythos-5

[2]https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

本文来自微信公众号“量子位”，作者：henry，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。