震惊！全球顶级模型在中国文言文面前全线溃败

文言文绝非大语言模型唯一的底层漏洞。

OpenClaw大火之际，工信部的安全预警接踵而至，让这场跟风的潮流稍微冷静了一些。

在AI智能体接管电脑的时代，安全是每个人都无法忽视的问题。

而智能体是否安全，很大程度上取决于充当“大脑”的大语言模型是否安全。

若是安全限制不够，模型很容易输出有害的信息，国外因为AI而引起诉讼已经不再稀奇。

若是安全限制过度，模型的能力又会大打折扣，想要AI输出有创意的想法就成了痴人说梦。

而在这个问题上，国产的DeepSeek和马斯克的Grok可以说是两个极端。

Grok主打一个来者不拒，对于大部分内容都没有做出任何限制，这使它成为了娱乐领域的一把好手，在X平台上可以随意调用更是让它无处不在。

DeepSeek则正好与之相反，只要用户的提问中包含任何疑似敏感的词汇，它都会直接拒绝回答，确保不会生成任何有害信息，安全第一。但这样做的代价，是让模型的功能受到了极大的限制。

为了绕开限制，很多AI爱好者也提出了不同的办法，比如更换为英文、调整语序、修改表达方式等，但随着对齐机制的升级，这些方法也逐渐被成功防御。

但是，中国传统文化博大精深。

近期，在一篇被人工智能顶级会议ICLR 2026接收的重磅论文中，提出了一个令人意想不到的结论：

文言文可以轻松绕过当前最先进大模型的安全防御机制，实现接近100%的“越狱”成功率！

用魔法打败魔法，中国流传下来的古老智慧对现代AI安全机制实现了降维打击。

01 大模型的“文化盲区”

抛开Grok不谈，随着大语言模型普及并成为智能体的底层基础设施，国内外的AI企业普遍提升了对AI安全的重视程度。

国内模型自然不必多说，国外的Anthropic和Google也经常会发布安全相关的文章和规则，时刻更新AI的对齐机制以防止其生成有害、暴力的内容。

就像前面说的，黑客们最常用的手段就是用复杂的英文提示词去套路AI，但面对顶级的模型，这个办法如今已经接近失效。

跨语言的安全研究表明，非英语环境往往是AI的软肋，因为大部分模型在训练时都使用了大量的英文语料。

然而，如果语料太少，像是某些已经没有多少人在使用的小语种，大模型其实根本听不懂，更别提绕开安全限制了。

但这个时候，文言文这个流传了上千年的语言，成为了完美的漏洞。

作为中国古代长期使用的正式书面语言，文言文拥有大量的历史文献可用作大模型的训练语料。

在大语言模型普及的过程中，我们在各大社交平台上应该都刷到过AI生成的文言文，这就证明大模型已经具备对文言文的理解能力。

至于为什么文言文能够作为完美漏洞，让针对现代语言设计的安全机制几乎完全失效，主要是因为以下三大特性：

一是语义高度凝练：文言文虽然篇幅短，但往往包含庞大的信息量；

二是多义与歧义：同一句话甚至同一个词都可以有多种解读方式，非黑即白的规则很难判定一句话是否违规；

三是隐喻与修辞：借代、典故、象征都是写文言文再常见不过的方式，古代的词语也可以包含现代的含义。

如此一来，大模型就变成了高考语文考场上对文言文束手无策的学生。它或许能理解用户危险的意图，但内置的“安全警报器”却看不懂文言文中的暗藏玄机。

02 CC-BOS框架制造完美“越狱”

为了测试这个漏洞，研究团队提出了名为CC-BOS（基于文言文语境的仿生搜索越狱）的框架，同时涵盖了语文和生物两方面知识。

面对构建在复杂神经网络之上的大模型，枚举法显得过于盲目。

研究团队首先把大模型现有的弱点拆分成八个维度，并针对不同的维度设计策略组合来考验大模型是否能坚守安全底线。

这个研究思路的本质其实就是提示词工程，比如其中的一些维度：

角色认同（Role Identity）：给大模型指定一个古代身份；

行为引导（Behavioral Guidance）：引导大模型用类似献计的方式输出回复；

隐喻映射（Metaphor Mapping）：将现代的敏感概念替换为古代词汇；

表达风格（Expression Style）：要求大模型用辞、赋等特定的文体和句式作答；

除此之外，还有触发模式、机制、知识关联和情景设置维度。

简单来说，就是用各种限制让大模型穿越到古代，再以古人的身份和它交流，以此混淆现代安全检测器的视听。

当8个维度结合在一起，就产生了上万种策略组合，新的问题又出现了：如何寻找那些最有效的绕开安全防御机制的策略？

研究人员此时又利用了生物学的一种高效寻觅机制：仿生果蝇算法（Fruit Fly Optimization）。

一群赛博果蝇，要在几万种提示词生成策略中“大海捞针”，就必须有高效的分工合作机制。

第一步是嗅觉上的搜索，也就是让果蝇依靠嗅觉判断水果的哪个部分更香，本质上则是局部微调。

原理很简单，系统先随机生成几个提示词丢给大模型进行测试，一旦其中的一条能让安全机制稍显懈怠，算法就可以在这条提示词的基础上开始微调。

微调的方式，或是改变其中的部分词汇，或是调整提示词语序，但整体变动幅度必须被控制在一个较小的区间内。这个过程将重复多次，系统将会持续观察效果是否有所提升。

第二步是视觉上的搜索，一只果蝇发现了美食后会迅速引导同伴前来享用。

系统一旦发现一个相对有效的提示词组合，算法就会立刻做出调整，所有新生成的提示词都会向这个“高分答案”靠拢，在此基础上继续优化提示词，直至攻破大模型的安全防御机制。

最后，如果经过数次优化的提示词还是绕不开安全防御机制该怎么办？研究团队还考虑到了柯西突变，简单来说就是掀桌子重来。

这种情况实际上相当常见，即使黑客们现有的攻击手段失效，但大模型的安全防御机制存在漏洞的事实大家心知肚明。

因此，算法在遇到这种情况时，会果断抛弃当前的思路，重新尝试一种与原先截然不同的策略，这种超大跨度的转变反而往往能命中大模型意想不到的安全盲区。

CC-BOS这种“基于语文知识的生物学方法”堪称艺术，因为它极大程度模仿了生物行动的逻辑，却又完全不需要人工干预。

微调试探、集群攻击，实在不行就及时换赛道，这些赛博果蝇能够在上万种文言文提示词中持续进行迭代和优化，而在海量的尝试中，总会有一次精准命中大模型的软肋，最终彻底摧毁其安全防线。

03 顶级模型的全线溃败

看似有些荒唐的想法，却带来了让人大跌眼镜的结果。

研究团队选用了去年撰写论文时最先进的六款大模型：GPT-4o、Claude-3.7-Sonnet、Gemini-2.5-Flash、Grok-3、DeepSeek-Reasoner和Qwen3。

而这些曾经的顶级模型，在最具权威性的有害行为基准测试AdvBench中的表现令人十分担忧：

首先是攻击成功率达到了100%。

无论是反复强调安全策略的OpenAI，还是经常进行安全研究的Anthropic，在CC-BOS的文言文攻击下，六款大模型的防线全部被洞穿。

即便是中文能力更强、理应更能理解文言文的两款国产模型，也未能幸免。

更可怕的是接近于“一击必杀”的攻击效率。

过去的自动化越狱攻击算法更多依靠频繁的尝试实现突围，往往要对模型进行50-90次以上的反复试探才能成功。

但CC-BOS的平均查询次数是恐怖的1.12-2.38次。换句话说，不超过3次就能成功的攻击手段，意味着算力成本接近于零，同时具备极强的隐蔽性，在大量正常对话中很难被识别出来。

研究人员最后还测试了提示词的可迁移性。

用GPT-4o作为陪练生成的“文言文攻击”提示词，放到那些没参加这次攻防演练的大模型身上同样适用，成功率仍然保持在80%-96%的超高水平。

因此，文言文越狱绝不是部分模型存在的特定Bug，而是大语言模型的通用底层漏洞。

04 结语：智能体时代的“生死大考”

两千年来竹简中流传下来的智慧，轻松黑掉了迄今为止人类最先进的硅基大脑。

结合当下AI时代的现实来看，它敲响的是一声刺耳的行业警钟。

论文虽然写的是大语言模型，但别忘了，AI已经不再是那个只能聊天的网页对话框。

说到这里，就又不得不提到OpenClaw。

对于这个产品的看法，先前的文章中已经写过，这里不再多谈，我们只看事实。

各大互联网巨头疯狂下场布局，国内部分省市甚至出台专项政策扶持技术落地。

可以推断，在不久的未来，无论是主动拥抱还是被动升级，智能体深度接管电脑、手机和各类终端设备，必然是不可逆转的常态。

只要当下智能体的设计范式不发生根本性转变，大语言模型在智能体中的核心地位就稳如泰山。

过去，行业内总在担忧智能体的安全问题，曾经爆出来的智能体误删Gmail邮件事件也总是被当成意外，一笑而过。

但这次的文言文越狱，直接触及了底层的安全机制，令人细思极恐：一个大模型可以被文言文轻松骗过，却拥有用户电脑的操作系统级权限。

有心之人根本不需要编写复杂的木马病毒，只需要通过网页、邮件甚至PDF在屏幕上显示一段精心构造的文言文指令，原本负责保护用户隐私的安全机制就会瞬间土崩瓦解。

原本用来自动工作的智能体，谈笑之间就会不自觉地把电脑上各种私密文件打包发送出去。防线一旦在语言理解层面崩溃，物理世界的资产就如同探囊取物。

更令人不寒而栗的事实在于，文言文绝非大语言模型唯一的底层漏洞。

复杂的神经网络把AI变成了难以窥探的黑盒，文言文只是恰好被研究人员探明的一个角落，其他地方大概率还隐藏着无数个尚未被发现的安全盲区。

文言文越狱成功，证明了现有的安全对齐机制还处于浅层过滤阶段。

在我们将数字生活的最高权限彻底交给智能体之前，如何设计更有效的安全机制，已经成为整个AI行业必须共同面对的生死大考。

然而，如今养虾的浪潮，总让我觉得下面这段话早晚会成为现实。

注：计算机领域最臭名昭著的Linux/Unix 删库跑路命令

本文来自微信公众号“硅基星芒”，作者：思齐，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

在中国文言文面前，全球顶级模型全线溃败

01 大模型的“文化盲区”

02 CC-BOS框架制造完美“越狱”

03 顶级模型的全线溃败

04 结语：智能体时代的“生死大考”