HomeArticle

在中国文言文面前,全球顶级模型全线溃败

锦缎2026-03-11 12:20
文言文绝非大语言模型唯一的底层漏洞。

OpenClaw大火之际,工信部的安全预警接踵而至,让这场跟风的潮流稍微冷静了一些。

在AI智能体接管电脑的时代,安全是每个人都无法忽视的问题。

而智能体是否安全,很大程度上取决于充当“大脑”的大语言模型是否安全。

若是安全限制不够,模型很容易输出有害的信息,国外因为AI而引起诉讼已经不再稀奇。

若是安全限制过度,模型的能力又会大打折扣,想要AI输出有创意的想法就成了痴人说梦。

而在这个问题上,国产的DeepSeek和马斯克的Grok可以说是两个极端。

Grok主打一个来者不拒,对于大部分内容都没有做出任何限制,这使它成为了娱乐领域的一把好手,在X平台上可以随意调用更是让它无处不在。

DeepSeek则正好与之相反,只要用户的提问中包含任何疑似敏感的词汇,它都会直接拒绝回答,确保不会生成任何有害信息,安全第一。但这样做的代价,是让模型的功能受到了极大的限制。

为了绕开限制,很多AI爱好者也提出了不同的办法,比如更换为英文、调整语序、修改表达方式等,但随着对齐机制的升级,这些方法也逐渐被成功防御。

但是,中国传统文化博大精深。

近期,在一篇被人工智能顶级会议ICLR 2026接收的重磅论文中,提出了一个令人意想不到的结论:

文言文可以轻松绕过当前最先进大模型的安全防御机制,实现接近100%的“越狱”成功率!

用魔法打败魔法,中国流传下来的古老智慧对现代AI安全机制实现了降维打击。

01 大模型的“文化盲区”

抛开Grok不谈,随着大语言模型普及并成为智能体的底层基础设施,国内外的AI企业普遍提升了对AI安全的重视程度。

国内模型自然不必多说,国外的Anthropic和Google也经常会发布安全相关的文章和规则,时刻更新AI的对齐机制以防止其生成有害、暴力的内容。

就像前面说的,黑客们最常用的手段就是用复杂的英文提示词去套路AI,但面对顶级的模型,这个办法如今已经接近失效。

跨语言的安全研究表明,非英语环境往往是AI的软肋,因为大部分模型在训练时都使用了大量的英文语料。

然而,如果语料太少,像是某些已经没有多少人在使用的小语种,大模型其实根本听不懂,更别提绕开安全限制了。

但这个时候,文言文这个流传了上千年的语言,成为了完美的漏洞。

作为中国古代长期使用的正式书面语言,文言文拥有大量的历史文献可用作大模型的训练语料。

在大语言模型普及的过程中,我们在各大社交平台上应该都刷到过AI生成的文言文,这就证明大模型已经具备对文言文的理解能力。

至于为什么文言文能够作为完美漏洞,让针对现代语言设计的安全机制几乎完全失效,主要是因为以下三大特性:

一是语义高度凝练:文言文虽然篇幅短,但往往包含庞大的信息量;

二是多义与歧义:同一句话甚至同一个词都可以有多种解读方式,非黑即白的规则很难判定一句话是否违规;

三是隐喻与修辞:借代、典故、象征都是写文言文再常见不过的方式,古代的词语也可以包含现代的含义。

如此一来,大模型就变成了高考语文考场上对文言文束手无策的学生。它或许能理解用户危险的意图,但内置的“安全警报器”却看不懂文言文中的暗藏玄机。

02 CC-BOS框架制造完美“越狱”

为了测试这个漏洞,研究团队提出了名为CC-BOS(基于文言文语境的仿生搜索越狱)的框架,同时涵盖了语文和生物两方面知识。

面对构建在复杂神经网络之上的大模型,枚举法显得过于盲目。

研究团队首先把大模型现有的弱点拆分成八个维度,并针对不同的维度设计策略组合来考验大模型是否能坚守安全底线。

这个研究思路的本质其实就是提示词工程,比如其中的一些维度:

角色认同(Role Identity):给大模型指定一个古代身份;

行为引导(Behavioral Guidance):引导大模型用类似献计的方式输出回复;

隐喻映射(Metaphor Mapping):将现代的敏感概念替换为古代词汇;

表达风格(Expression Style):要求大模型用辞、赋等特定的文体和句式作答;

除此之外,还有触发模式、机制、知识关联和情景设置维度。

简单来说,就是用各种限制让大模型穿越到古代,再以古人的身份和它交流,以此混淆现代安全检测器的视听。

当8个维度结合在一起,就产生了上万种策略组合,新的问题又出现了:如何寻找那些最有效的绕开安全防御机制的策略?

研究人员此时又利用了生物学的一种高效寻觅机制:仿生果蝇算法(Fruit Fly Optimization)。

一群赛博果蝇,要在几万种提示词生成策略中“大海捞针”,就必须有高效的分工合作机制。

第一步是嗅觉上的搜索,也就是让果蝇依靠嗅觉判断水果的哪个部分更香,本质上则是局部微调。

原理很简单,系统先随机生成几个提示词丢给大模型进行测试,一旦其中的一条能让安全机制稍显懈怠,算法就可以在这条提示词的基础上开始微调。

微调的方式,或是改变其中的部分词汇,或是调整提示词语序,但整体变动幅度必须被控制在一个较小的区间内。这个过程将重复多次,系统将会持续观察效果是否有所提升。

第二步是视觉上的搜索,一只果蝇发现了美食后会迅速引导同伴前来享用。

系统一旦发现一个相对有效的提示词组合,算法就会立刻做出调整,所有新生成的提示词都会向这个“高分答案”靠拢,在此基础上继续优化提示词,直至攻破大模型的安全防御机制。

最后,如果经过数次优化的提示词还是绕不开安全防御机制该怎么办?研究团队还考虑到了柯西突变,简单来说就是掀桌子重来。

这种情况实际上相当常见,即使黑客们现有的攻击手段失效,但大模型的安全防御机制存在漏洞的事实大家心知肚明。

因此,算法在遇到这种情况时,会果断抛弃当前的思路,重新尝试一种与原先截然不同的策略,这种超大跨度的转变反而往往能命中大模型意想不到的安全盲区。

CC-BOS这种“基于语文知识的生物学方法”堪称艺术,因为它极大程度模仿了生物行动的逻辑,却又完全不需要人工干预。

微调试探、集群攻击,实在不行就及时换赛道,这些赛博果蝇能够在上万种文言文提示词中持续进行迭代和优化,而在海量的尝试中,总会有一次精准命中大模型的软肋,最终彻底摧毁其安全防线。

03 顶级模型的全线溃败

看似有些荒唐的想法,却带来了让人大跌眼镜的结果。

研究团队选用了去年撰写论文时最先进的六款大模型:GPT-4o、Claude-3.7-Sonnet、Gemini-2.5-Flash、Grok-3、DeepSeek-Reasoner和Qwen3。

而这些曾经的顶级模型,在最具权威性的有害行为基准测试AdvBench中的表现令人十分担忧:

首先是攻击成功率达到了100%。

无论是反复强调安全策略的OpenAI,还是经常进行安全研究的Anthropic,在CC-BOS的文言文攻击下,六款大模型的防线全部被洞穿。

即便是中文能力更强、理应更能理解文言文的两款国产模型,也未能幸免。

更可怕的是接近于“一击必杀”的攻击效率。

过去的自动化越狱攻击算法更多依靠频繁的尝试实现突围,往往要对模型进行50-90次以上的反复试探才能成功。

但CC-BOS的平均查询次数是恐怖的1.12-2.38次。换句话说,不超过3次就能成功的攻击手段,意味着算力成本接近于零,同时具备极强的隐蔽性,在大量正常对话中很难被识别出来。

研究人员最后还测试了提示词的可迁移性。

用GPT-4o作为陪练生成的“文言文攻击”提示词,放到那些没参加这次攻防演练的大模型身上同样适用,成功率仍然保持在80%-96%的超高水平。

因此,文言文越狱绝不是部分模型存在的特定Bug,而是大语言模型的通用底层漏洞。

04 结语:智能体时代的“生死大考”

两千年来竹简中流传下来的智慧,轻松黑掉了迄今为止人类最先进的硅基大脑。

结合当下AI时代的现实来看,它敲响的是一声刺耳的行业警钟。

论文虽然写的是大语言模型,但别忘了,AI已经不再是那个只能聊天的网页对话框。

说到这里,就又不得不提到OpenClaw。

对于这个产品的看法,先前的文章中已经写过,这里不再多谈,我们只看事实。

各大互联网巨头疯狂下场布局,国内部分省市甚至出台专项政策扶持技术落地。

可以推断,在不久的未来,无论是主动拥抱还是被动升级,智能体深度接管电脑、手机和各类终端设备,必然是不可逆转的常态。

只要当下智能体的设计范式不发生根本性转变,大语言模型在智能体中的核心地位就稳如泰山。

过去,行业内总在担忧智能体的安全问题,曾经爆出来的智能体误删Gmail邮件事件也总是被当成意外,一笑而过。

但这次的文言文越狱,直接触及了底层的安全机制,令人细思极恐:一个大模型可以被文言文轻松骗过,却拥有用户电脑的操作系统级权限。

有心之人根本不需要编写复杂的木马病毒,只需要通过网页、邮件甚至PDF在屏幕上显示一段精心构造的文言文指令,原本负责保护用户隐私的安全机制就会瞬间土崩瓦解。

原本用来自动工作的智能体,谈笑之间就会不自觉地把电脑上各种私密文件打包发送出去。防线一旦在语言理解层面崩溃,物理世界的资产就如同探囊取物。

更令人不寒而栗的事实在于,文言文绝非大语言模型唯一的底层漏洞。

复杂的神经网络把AI变成了难以窥探的黑盒,文言文只是恰好被研究人员探明的一个角落,其他地方大概率还隐藏着无数个尚未被发现的安全盲区。

文言文越狱成功,证明了现有的安全对齐机制还处于浅层过滤阶段。

在我们将数字生活的最高权限彻底交给智能体之前,如何设计更有效的安全机制,已经成为整个AI行业必须共同面对的生死大考。

然而,如今养虾的浪潮,总让我觉得下面这段话早晚会成为现实。

注:计算机领域最臭名昭著的Linux/Unix 删库跑路命令

本文来自微信公众号“硅基星芒”,作者:思齐,36氪经授权发布。