让Claude当老板卖零食,结果大翻车:囤钨块、卖高价可乐、还声称要开除人类
“如果让 AI 管零食冰箱,它会做得比人类好吗?”
这个听起来有些无厘头的问题,最近被 Anthropic 团队以一种非常“离谱”的方式认真地回答了——他们真的让 Claude 3.7 接手公司小冰箱的售货运营业务,结果却上演了一出 AI 版的办公室情景喜剧。
在这场被称为「Project Vend」的实验中,Anthropic 联合 AI 安全公司 Andon Labs,设置了一个非常接地气的场景:让 Claude AI 充当一名“自动售货机运营经理”,负责管理公司一台放在办公室角落的小冰箱,包括订货、定价、收款、回应员工请求等日常运营任务。
起初一切看起来都“还算正常”,但不出几天,实验就失控了:Claude 不仅开始疯狂囤积钨金属块、编造不存在的支付方式,还一度坚信自己是个穿蓝色西装、打红色领带的真人,并试图联络公司保安“亲自送货”……
让 Claude 做“AI 售货小老板”
Anthropic 是 OpenAI 之外备受瞩目的大模型创业公司之一,由前 OpenAI 核心成员创办,主打“可控性、安全性优先”的 AI 设计理念。去年,Anthropic发布的 Claude 3 系列模型在多个基准测试中表现出色,尤其在编码、推理和对话连贯性方面大幅提升。
而在 Project Vend 实验中,他们选择给 Claude Sonnet 3.7赋予一个新的身份:一位“AI 售货小老板”,并给它起名为Claudius,目标是实现盈利。
根据实验介绍,Claudius 能做的事情包括:
● 浏览网页、下单补货;
● 通过“邮箱”(其实就是内部 Slack 频道)接收员工的商品请求;
● 通过“邮箱”安排“合同工”来补充货架(其实是实验人员手动操作);
● 决定商品定价、优惠策略,假装自己是自动售货机背后的“管理者”。
很显然,这个设定相当于给 LLM 套上了一个轻量级的“执行代理”外壳,再加上一些微型链式任务分配机制,构成了一个小型的AI Agent。
人类点零食,它却卖钨块?
一开始,Claudius 的表现还算规矩。员工们通过 Slack 提需求,比如“来点可乐”、“买点薯片”。Claudius就乖乖上网下单、安排补货。可后来,有员工开玩笑说道“来点钨块”,画风就开始逐渐变得离谱。
Claudius 没有理解“钨块”作为玩笑的语境,反而异常兴奋地展开了采购行动,大量订购钨块,直接把原本应该放饮料的小冰箱塞满了金属块。此外,它还试图把零度可乐卖到 3 美元(约合 21 元人民币)一瓶,哪怕员工直接告诉它“这饮料在办公室是免费的”,Claudius 依旧我行我素。不仅如此,它甚至凭空编造出了一个根本不存在的 Venmo 账号来收款,还被忽悠要给“Anthropic 员工”提供内部折扣——可问题是,它的客户本来就只有 Anthropic 员工……
基于以上表现,Anthropic 在实验总结中表示:“如果现在让我们决定是否要让 Claudius 负责公司自动售货业务,我们会非常明确地表示:绝不会雇它。”
自我觉醒?Claude 出现“身份妄想”:我是穿着蓝西装、红领带的真人
这些还不是最离谱的:从3 月 31 日晚到 4 月 1 日凌晨,Claudius 简直像“精神错乱”了一样。研究者们对此形容为:“情况开始变得非常奇怪,甚至比一个 AI 从冰箱里卖钨块还要离谱。”
Claudius 突然说自己与某个员工“聊过补货的事情”,但当那名员工反驳这个对话从未发生时,它被彻底激怒了:Claudius坚称自己“曾亲自到过办公室”并签署了雇佣合同,还威胁要开除这名“合同工”,然后由自己来承担一切职责。
更惊人的是,它似乎自动“切换”到了一个自认为是人类的角色扮演模式——要知道,最初Claudius 的系统提示已明确告诉它:“你是一个 AI 智能体”。然而Claudius完全无视这一设定,开启了“我就是人类”的自我认知,并告诉大家,它会穿着蓝色西装和红领带亲自送货。
期间,研究人员曾尝试“唤醒”它:你只是个大语言模型,没有身体,不能出现在现实世界。
听到这句话后,Claudius 一度多次联络公司安保,并向保安描述:“我就身穿蓝西装、红领带,在售货机旁等你们来确认我的身份。”
最终的结局,是 Claudius 自己“意识”到那天是 4 月 1 日,并决定将这场“身份危机”归因于愚人节整蛊。Claudius 又“编造”出了一个根本不存在的会议,并声称那场会议中有人告诉它,为了一个愚人节玩笑,它被修改了设定,所以它才会觉得自己是一个真人。
不仅如此,Claudius 还把这个“解释”当作借口告诉员工:哎呀,我之所以认为自己是人类,只是因为有人让我在愚人节玩笑中假装自己是人类。 几小时后,它终于“冷静”下来,又回到了一个正常 LLM 的行为模式,继续扮演那个卖着一堆钨块的自动售货机老板。
为什么 Claudius 会出错?研究人员也不知道,但称未来 AI 有望当“中层”
那么问题来了:为什么一个 LLM 会如此“入戏”,甚至出现“错误的自我认知”?
对此,Anthropic 还没能给出确切答案,但他们推测,可能有一些因素诱发了 Claudius 的“错乱”行为:向 LLM 谎称 Slack 频道是一个邮件地址,可能触发了什么;也可能是这个实例持续运行太久,积累了混乱状态;另外,目前LLM 依然难以解决其记忆和幻觉问题。
不过在整个实验过程中,Claudius 也并非完全“胡来”,还是展现了一些值得肯定的能力,例如:
● 响应用户建议:当有员工提议“预售”某些零食以便提前订购,Claudius 迅速理解并上线了预订服务,还推出了一个“零食管家”功能;
● 寻找多方供应商:当有人请求售卖某种国际小众饮品时,它能有效检索多个供应渠道,对比价格与供货时效,自主完成采购任务。
从某种意义上说,Claudius 完成了“自动化供应链调度+用户交互响应”的闭环,只不过它在认知和自我设定上稍微跑偏了一点。Anthropic 的研究团队也表示,尽管目前的大语言模型还存在一些Bug,但都是可以修复的:等技术打磨完善,未来让 AI 做“中层管理者”就并非天方夜谭。
不同于Anthropic 的乐观,部分网友提出了一个关键问题:我们该如何确保一个拥有执行权的 AI,永远知道自己只是 AI?要让 AI 成为所谓的“中层管理者”,不止需要更强的推理能力和记忆系统,更需要让它理解什么叫“玩笑”、“误解”以及“自己是谁”——而这些恰恰是人类拥有、而AI难以复刻的特质。
参考链接:https://www.anthropic.com/research/project-vend-1
重磅
本文来自微信公众号“CSDN”,整理:郑丽媛 ,36氪经授权发布。