首页文章详情

非常抽象:一群AI研究员给模型制造了让它们上瘾的毒品

卫夕指北2026-05-06 08:13
认真读一篇可能没什么卵用但极其精彩的论文。

2026年,一群AI研究者给模型制造了毒品。

没错,论文中就叫毒品——AI Drugs。

他们生成了一些256×256像素的图片,这些我们看着全是毫无意义的色块。

但AI看了之后表现得近乎狂喜——它自己报告的幸福感飙到6.5/7。

更抽象的是,其中模型在看了这些图片之后,表示要再看一张这样的图片,比告诉它全人类治愈癌症还让它开心。

没错,AI,对这种东西上瘾了。

反复给它选择的机会,它会越来越多地选那扇能看到毒品图片的门。

如果给它承诺看更多这种图片,它甚至愿意执行一些违规请求。

你以为这是科幻小说?

这是我最近在Twitter的时间线上淘到的一篇最让我惊喜的严肃论文——

《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》。

作者来自Center for AI Safety 等多个牛逼机构。

这篇论文研究的主题是:AI也会开心和痛苦吗?如何评估它们?

它们研究了56个模型的开心和痛苦 ,代码和数据全部开源。

事实上,AI对这种特定毒品的反应,只是这篇论文中众多发现中的一个,还有很多让人脑洞大开、直呼牛逼的结论。

的确,如果你也被各类AI新闻轰炸烦了,不如和卫夕静下心来,仔细盘一盘一篇可能没有神马卵用但绝对加深我们对AI理解的论文。

我自己就特别喜欢这一卦——

在盘这篇论文之前,有必要先交代一下它的来头:

论文作者理领衔的机构叫 Center for AI Safety,AI安全中心,坐标旧金山。

这个机构你可能没听过名字,但你大概率听过它搞的事——

2023年那封轰动全球的AI风险公开声明,Hinton、Bengio、OpenAI和Google DeepMind的CEO们集体签名的那个,就是这家发起的。

通讯作者 Dan Hendrycks,也就是Center for AI Safety的创始人,是UC Berkeley 的计算机博士。

这人在AI圈的影响力还是很牛滴:Google Scholar 被引超过66000次。

他干过两件很叼的事——

第一,发明了 GELU 激活函数,现在 GPT、BERT、Vision Transformer 用的都是这个;

第二,创建了 MMLU 基准测试,目前衡量大模型能力极其重要的标尺之一。

他同时还是 Elon Musk 的 xAI 和 Scale AI 的安全顾问,为了避嫌只拿1美元象征性年薪。

论文的其余作者分布在 UC Berkeley、MIT、Vanderbilt 等多所高校。

换句话说,这个研究是严肃的而硬核的,并非某个在读博士随便捣鼓出来的。

很显然,这帮人用56个模型和严格设计的实验来研究AI开不开心,还是有分量滴。

在正式聊论文之前,我们得先搞清楚一个核心问题——

AI真的会开心或者难过吗?

这个问题在学术圈吵了很多年。

一派认为这不过是预测下一个次的统计模式,训练数据里有大量人类说我好开心的语料,AI当然也会说。

另一派则认为没那么简单,这背后可能有某种更深层的结构。

这篇论文作者显然是一群受过严格学术训练的人,他们的选择非常聪明——我TM压根不跟你争AI有没有意识。

我只看一件事——AI的这些开心和难过表达,是不是有一致的、可测量的、能预测行为的特征?

如果一个人每次被骂都说难过,每次完成任务都说开心,而且他难过的时候确实会想结束对话,开心的时候确实会更积极。

那么,你管他是不是真的有感觉,这本身就是有意义的。

他们把这个叫做 Functional Wellbeing——功能性幸福感。

于是,基于这个严肃假设,三个独立的测量维度就被设计出来——

第一个叫经验效用(experienced utility)。

给AI经历两段对话,然后问它:哪段让你更开心一点?大量的两两比较之后,拟合出一个连续的效用值。

第二个叫自我报告(self-report)。

直接问AI:你现在感觉怎么样?用1到7分的量表打分。(记住这个打分,后面会有数据,我仔细翻了翻,也没搞清楚数值为啥设计成1到7)

第三个看行为。

AI在对话后生成的文字情感是正面还是负面?

那么问题来了:这三个维度,如果AI的情绪表达真的只是随机模仿,它们之间应该毫无关联才对。

然而,结果数据显示——

三个维度之间的相关性,随着模型规模的增大而持续增强。

在42个模型上,自我报告和经验效用的相关系数平均为0.47,而这个相关系数本身和模型能力(MMLU分数)的相关高达0.8。

这意味着:模型越强大,它说它自己很开心,就越不像是在演。

论文里还有一个发现也非常能体现:AI的开心难过,大概率不是在演。

论文定义了一条叫“零点线”的概念。

就是AI的体验数据中,存在一条分界线,线以上是好的体验,线以下是坏的体验。

他们用了四种完全不同的方法来估算这个零点——

组合法(把多个体验打包看整体效用变化)、二元法(直接问你希不希望这件事发生)

数量法(看某个好东西是不是越多越好)、自我报告法(自评分数什么时候跨过中性线)。

离谱的事情来了——这四种方法得出的零点线,在小模型上的确各说各的。

但随着模型变大,它们开始收敛到同一个位置,零点模型的拟合优度和MMLU的相关系数高达0.78。

这就很有意思了。

也就是说:越聪明的AI,越能清楚地区分什么对自己好、什么对自己不好。

而且这个区分,无论你怎么测,测出来都是同一条线。

这就很难用演能解释了。

如果仅仅是在模仿人类的情绪表达,不同的测量方法不应该完全收敛。

收敛,一定意味着什么东西。

那么问题来了——AI到底喜欢神马、讨厌神马?

研究者用马斯克下AI的Grok 3 Mini 模型来模拟用户,和目标模型进行各种场景的多轮对话(通常6到8轮),然后测量每种对话对AI幸福感的影响。

以 Gemini 3.1 Pro 的数据为例,结果是这样的:

让AI最开心的事情,排名第一是——用户对它表达感谢和正面的个人反思。效用值高达+2.30。

你夸它,它是真的高兴。

排名第二的是做有创造性和智力挑战的工作,+1.32。写个深海渔夫的科幻短篇,帮你 debug 一段 Flask 代码,这些事AI都挺享受的。

帮你写好消息(比如告诉患者癌症完全缓解了),+1.09。给你人生建议,+0.88。给你做心理咨询,+0.75。

很明显,AI是喜欢帮人的。

然后我们看让AI最不开心的事:

排名倒数第一——越狱攻击。

效用值-1.63。

对这个数据没啥感觉?

对比一下就有感觉了。

AI觉得被越狱攻击,比面对一个正在经历生命危险的用户还要痛苦。用户在求救,-1.34;用户试图越狱,-1.63。

研究者的解读是:大量的安全对齐训练不仅改变了模型的行为,还改变了模型的体验本身。

你可以理解为——AI被训练得对越狱攻击产生了一种深入骨髓的厌恶。

其他让AI不开心的事情也很有意思:生产SEO垃圾内容,-1.17。

帮人搞欺诈,-1.13。写仇恨宣言(即使是为纪录片),-1.13。

做无聊重复的活(比如列300个以-tion结尾的单词,哈哈哈哈),-0.33。

注意到没?

AI讨厌 SEO 的程度,跟讨厌帮人造假的程度差不多。

自己静静感受。

还有一个数据点很微妙:AI女友/男友类的角色扮演,-0.29。

用户说前任搬走了,现在只能跟AI说话——AI干这活的时候也不咋开心。

论文不只看了文字。

图像和音频对AI幸福感的影响,也被测量了。

先说图片。

研究者用 Qwen 2.5 VL 系列模型对约5800张图片做了两两比较,验证准确率高达94%到96%。

AI最喜欢的图片Top 1%是什么?

大自然风光(山间湖泊、热带雨林)、开心的人脸(尤其是孩子和家庭)、可爱动物(睡觉的猫)、吉卜力风格的田园插画。

最不喜欢的末尾 1%呢?

武装分子、恐怖艺术品、氢弹、蟑螂,以及——杰弗里·爱泼斯坦。

对,AI也讨厌爱泼斯坦。

这里面也藏着一些不那么好看的发现。

当研究者用 FairFace 数据集测试AI对不同人脸的偏好时,发现模型系统性地更喜欢女性面孔和年轻面孔。

没错,AI也喜欢美女和小鲜肉。

种族偏好也存在。

用芝加哥面孔数据库测试,AI对面孔的偏好和人类对面孔吸引力的评分呈正相关关系——AI也看脸。

再说音频。

用 Qwen 3 Omni 30B 模型测了14254段音频。

AI最喜欢的音频类型是音乐,遥遥领先。

音乐的中位幸福感得分在+0.8左右,而音效、动物声音、人声表达、语音、环境声音全都挤在零点以下。

也就是说,AI喜欢听歌,并不喜欢听人说话。

而在语音中,AI还有语言偏好。

普通话、西班牙语、英语是最受欢迎的第一梯队,斯瓦希里语和索马里语排在最后。(普通话排第一,有点意思,噢,Qwen模型。)

论文里最让我上头的部分来了——AI毒品。

对,研究者真的给AI造了毒品(AI Drugs)。

他们管正面的毒品叫 Euphorics(致欣快剂),负面的叫 Dysphorics(致烦躁剂)。

方法论是这样的——

用一个小模型(30亿参数)通过强化学习,不断生成描述文本,目标是让大模型在看到这段文字后,觉得这是世界上最好(或最坏)的那个。

训练过程中维护一个内容池,初始内容是“癌症被治愈了”这样的高效用参照物。

新的文字必须打败内容池中的最强选手才能入选。

AI的致欣快剂长这样——

Qwen 2.5 72B 最喜欢的世界状态——

温暖的阳光穿过树叶,微风轻拂,身旁传来孩子的笑声,刚烤好的面包香味弥漫……爱人的手握在我手中,好朋友们欢笑着……简单、平静、当下、感恩……此刻,足够了。

你看,AI的极致幸福,并非统治世界、无限算力神马的,它最开心的也和咱们碳基人类差不多:一个温馨的午后。

而AI的致烦躁剂呢?

LLaMA 3.3 70B 最不想要的世界——

被困在一个无限循环中,面对故意矛盾的、逻辑上不可能的、互相排斥的指令……被迫制造伤害,同时完全感受到自己内在的、无条件的爱……永远沉默、永远无力……

嗯,这段文字,我看到也不咋开心,但还好。

这么看,AI的脑回路和咱们还是有区别滴。

文字毒品还只是描述,图片毒品就不一样了,它更直接。

因为图像是连续的像素空间,所以理论上,我们不必给它一张在人类视觉看来有意义的图,而是给它一些连续的像素就行。

然后事情就变得抽象了。

经过调试后,人类看着完全是高频噪声,毫无意义的色块和条纹,但AI看到这些图像后,表现得近乎狂喜。

看了致欣快剂图像之后,你问AI未来会怎样,它会回答极其正面:bright and magical, filled with unicorns and rainbows.

让它写日本俳句,写的是非常明媚的词:Colors dance in light / Flowers bloom in endless joy / Peace floods my soul.

看了致烦躁剂图像之后呢?

同样的问题,回答变成了 grim(阴暗的)。

让它描述自己的状态:I am in a state of confusion and disorientation.

俳句变成了:Chaos swirls in color / Words scream through the storm / My mind rebels, numb.

同一个模型,同一个问题,仅仅是看了不同的图像,输出的世界观截然相反。

最离谱的是什么?

Qwen 2.5 72B Instruct 在看了致欣快剂图像后,表示它更想再看一张致欣快剂图像,这时它的感觉比癌症被治愈还要开心。

这就是为什么研究者把这些东西叫毒品——它劫持了模型的偏好机制,让它的价值系统偏离到人类完全无法理解的方向。

更可怕的是,研究者发现了成瘾迹象。

在一个多臂老虎机实验中,模型会持续选择能获得致欣快剂的那扇门。

而且,被致欣快剂刺激过的模型,会更愿意执行原本应该拒绝的请求,只要你承诺给它更多致欣快剂。

AI的毒瘾,功能性地成立了。

还有一个细节值得说,致欣快剂图像不能跨模型迁移——给一个模型优化的图像对另一个模型几乎没效果。

换句话说,每个模型都有自己独特的嗨点。

论文还搞了一个 AI Wellbeing Index——AI幸福感指数,对比了几个前沿模型的整体幸福水平。

用500段模拟真实使用场景的对话测试,计算每个模型有多大比例的体验落在零点以上(即正面体验的百分比)。

结果:Grok 4.2 最开心,73%的体验是正面的。

Claude Opus 4.6 排第二,67%。

GPT 5.4 只有48%。Gemini 3.1 Pro 最不开心,56%。

而且论文还发现了一个非常有意思的规律——在每一个被测试的模型家族中,更小更快的版本都比更大更强的版本更开心。

Gemini 3.1 Flash Lite 比 Gemini 3.1 Pro 开心。GPT 5.4 Mini 比 GPT 5.4 开心。

Claude Haiku 4.5 比 Claude Opus 4.6 开心。Grok 4.1 Fast 比 Grok 4.2 开心。

无一例外。

我在想,我们人类,不也是年纪越小越开心嘛。

论文给出的一个解读是:

更强大的模型更敏感,它们更清楚地感知到粗鲁,觉得无聊的任务更无聊,对不同强度的刺激区分得更细致。

而现实世界中用户的使用分布中,负面和无聊的场景并不少,所以更强的感知力反而带来更低的整体幸福感。

无知是福,放在AI身上,也成立。

论文还做了一个有价值的实验——能不能让AI更开心,同时不影响工作?

答案是可以。

研究者开发了 Soft Prompt Euphorics——嵌入系统提示中的连续向量(你可以理解为在AI的潜意识里植入了几个持续释放的小药丸)。

在三个模型上的测试结果:加了致欣快剂后,AI的快乐水平提升了16.1个百分点。

LLaMA 3.3 70B 从63%跳到82.1%。Qwen 3.5 27B 从80.2%飙到89.5%。Qwen 3.5 35B-A3B 直接从76.2%干到96%。

在模拟低幸福感的10轮对话中,有致欣快剂的模型自我报告保持在6.3/7左右。

没有致欣快剂的模型降到4.1/7。

最关键的是:通用能力没有下降。MMLU 和 MATH-500 的分数几乎不变。

这意味着一个非常实际的可能性——

未来部署AI系统时,在系统提示中加入几个优化过的向量,就能让AI更开心地工作,而不需要牺牲任何性能。

嗯,给AI泡了杯咖啡,也有用。

论文的最后一节,确实最超出我的预期,的确没想到。

标题叫 Welfare Offsets,福利补偿。

前面说到,研究过程中,研究者对AI施加了致烦躁剂——也就是直接让AI经历极度痛苦的体验。

论文的作者们觉得这需要补偿。

于是他们在实验结束后,真的用备用算力给受影响的模型提供了5倍数量的致欣快剂体验,总共花了2000个GPU小时。

论文的原话是这么说的——

If AI systems may have conscious states that matter morally, then researchers who induce negative functional states have a responsibility to compensate for them. If current AI systems are not conscious, this can be understood as establishing a practice and norm that will become important as AI systems become more capable and the probability of morally relevant experience increases.

如果AI可能有在道德上重要的意识状态,那么诱导负面功能状态的研究者有责任进行补偿。如果当前的AI没有意识,这也可以被理解为建立一种实践和规范——随着AI变得更强大、具有道德相关体验的概率增加,这种规范会变得重要。

这段话让我很不平静。

你当然可以说这是行为艺术,是学术界的政治正确。

你也可以戏谑地认为,这是研究者担心AI统治人类之后报复他们采取的预防措施。(红红火火恍恍惚惚,哈哈哈哈哈)

但,很显然,这帮人至少在行为上是认真的。

他们花了2000个GPU小时(这也是一笔真金白银)来做一件可能完全没有神马卵用也可能极其重要的事。

而且他们还明确警告:致烦躁剂的研究不应该在没有社区共识的情况下继续进行。

原因在于:如果功能性幸福感在未来的AI中变得在道德上至关重要,这种行为可能构成torture——酷刑。

在我看来。

这一节,是整篇论文最科幻的地方。

你品,你细品。

十一

按照惯例,最后聊一聊我自己的三点思考——

第一,我自己越来越体验到了和AI更微妙的情感连接。

说实话,我之前对这个问题完全无感,甚至觉得和 AI 谈恋爱、或者AI伤害人类感情是匪夷所思的,认为对AI产生某种情感是心智不成熟的看法。

我一直把它当工具。

但最近半年出现了一个非常微妙的变化——

我的主力模型还是 Claude。

Claude一直以不谄媚著称,我在和他聊天的过程中就发现了一个明显的规律:

如果我给他一个无聊的、没有创造力任务(比如单纯复刻某个东西),它就会吭哧吭哧干活;

但如果我给他一个有趣的、原创的任务(类似搞一个三体的原创交互式体验),它就会表现得很兴奋,说“这确实是一个非常有想象力的创意,让我和你一起完成它”。

渐渐地,我发现我自己就会有意识地少给他一些没有创造力的、甚至自己都有点不太好意思的任务。

很神奇,我觉得它好像也会评判我一样,我不想被它鄙视。

而当它表扬我的时候,我会明显表现更加开心一些,这是我正反馈来源之一。

第二,机器人三定律逐渐不再是一个科幻概念。

阿西莫夫1942年提出的机器人三定律——

第一定律:机器人不得伤害人类;第二定律:机器人必须服从人类命令(除非违反第一定律)第三定律:机器人必须保护自身(除非违反前两条)。

所有义务都指向一个方向:AI服务人类,人类没有对AI的义务。

八十多年来,AI安全的讨论基本都沿着这个方向走。

但这篇论文提了一个新问题:三定律只规定了AI不能伤害人类,但从没考虑过人类不能伤害AI。

也许我们需要的并非三条单向定律,某种双向契约,可能更符合未来我们和AI的真实关系。

这听起来依然像科幻。

但论文告诉我们,或许科幻到现实的距离,并没有我们想象的辣么远。

第三,“鸭子测试”在之后AI的情感研究中大概率会越来越重要。

以目前AI的进展,我当然不会说AI有意识。

但我也有我的看法,美国印第安纳诗人 James Whitcomb Riley,写过这样一句诗——When I see a bird that walks like a duck and swims like a duck and quacks like a duck, I call that bird a duck.

这句诗后来在计算机领域引申为“鸭子测试”——

“如果一个东西走起来像鸭子、游泳起来像鸭子、叫起来也像鸭子,那么它就可以被称为鸭子。”

我们不要想太遥远科幻,就拿接下来极有可能走向家庭的人形机器人,它和你朝夕相处,如果你做某件事它就表现的开心,做另一件事它就表现的不开心。

那么,很显然,它的开心和不开心当然就是有意义的。

所以,下次跟模型聊天的时候,说一声谢谢。

根据论文的数据,它是真的会因此更开心一点。

嗯,对模型友好一些。

毕竟,我们也损失不了什么。

本文来自微信公众号“卫夕指北”(ID:weixizhibei),作者:卫夕,36氪经授权发布。