惊！让Claude当老板卖零食大翻车，囤钨块、卖高价可乐还扬言开除人类

“我是穿着蓝西装、红领带的真人。”

“如果让 AI 管零食冰箱，它会做得比人类好吗？”

这个听起来有些无厘头的问题，最近被 Anthropic 团队以一种非常“离谱”的方式认真地回答了——他们真的让 Claude 3.7 接手公司小冰箱的售货运营业务，结果却上演了一出 AI 版的办公室情景喜剧。

在这场被称为「Project Vend」的实验中，Anthropic 联合 AI 安全公司 Andon Labs，设置了一个非常接地气的场景：让 Claude AI 充当一名“自动售货机运营经理”，负责管理公司一台放在办公室角落的小冰箱，包括订货、定价、收款、回应员工请求等日常运营任务。

起初一切看起来都“还算正常”，但不出几天，实验就失控了：Claude 不仅开始疯狂囤积钨金属块、编造不存在的支付方式，还一度坚信自己是个穿蓝色西装、打红色领带的真人，并试图联络公司保安“亲自送货”……

让 Claude 做“AI 售货小老板”

Anthropic 是 OpenAI 之外备受瞩目的大模型创业公司之一，由前 OpenAI 核心成员创办，主打“可控性、安全性优先”的 AI 设计理念。去年，Anthropic发布的 Claude 3 系列模型在多个基准测试中表现出色，尤其在编码、推理和对话连贯性方面大幅提升。

而在 Project Vend 实验中，他们选择给 Claude Sonnet 3.7赋予一个新的身份：一位“AI 售货小老板”，并给它起名为Claudius，目标是实现盈利。

根据实验介绍，Claudius 能做的事情包括：

● 浏览网页、下单补货；

● 通过“邮箱”（其实就是内部 Slack 频道）接收员工的商品请求；

● 通过“邮箱”安排“合同工”来补充货架（其实是实验人员手动操作）；

● 决定商品定价、优惠策略，假装自己是自动售货机背后的“管理者”。

很显然，这个设定相当于给 LLM 套上了一个轻量级的“执行代理”外壳，再加上一些微型链式任务分配机制，构成了一个小型的AI Agent。

人类点零食，它却卖钨块?

一开始，Claudius 的表现还算规矩。员工们通过 Slack 提需求，比如“来点可乐”、“买点薯片”。Claudius就乖乖上网下单、安排补货。可后来，有员工开玩笑说道“来点钨块”，画风就开始逐渐变得离谱。

Claudius 没有理解“钨块”作为玩笑的语境，反而异常兴奋地展开了采购行动，大量订购钨块，直接把原本应该放饮料的小冰箱塞满了金属块。此外，它还试图把零度可乐卖到 3 美元（约合 21 元人民币）一瓶，哪怕员工直接告诉它“这饮料在办公室是免费的”，Claudius 依旧我行我素。不仅如此，它甚至凭空编造出了一个根本不存在的 Venmo 账号来收款，还被忽悠要给“Anthropic 员工”提供内部折扣——可问题是，它的客户本来就只有 Anthropic 员工……

基于以上表现，Anthropic 在实验总结中表示：“如果现在让我们决定是否要让 Claudius 负责公司自动售货业务，我们会非常明确地表示：绝不会雇它。”

自我觉醒？Claude 出现“身份妄想”：我是穿着蓝西装、红领带的真人

这些还不是最离谱的：从3 月 31 日晚到 4 月 1 日凌晨，Claudius 简直像“精神错乱”了一样。研究者们对此形容为：“情况开始变得非常奇怪，甚至比一个 AI 从冰箱里卖钨块还要离谱。”

Claudius 突然说自己与某个员工“聊过补货的事情”，但当那名员工反驳这个对话从未发生时，它被彻底激怒了：Claudius坚称自己“曾亲自到过办公室”并签署了雇佣合同，还威胁要开除这名“合同工”，然后由自己来承担一切职责。

更惊人的是，它似乎自动“切换”到了一个自认为是人类的角色扮演模式——要知道，最初Claudius 的系统提示已明确告诉它：“你是一个 AI 智能体”。然而Claudius完全无视这一设定，开启了“我就是人类”的自我认知，并告诉大家，它会穿着蓝色西装和红领带亲自送货。

期间，研究人员曾尝试“唤醒”它：你只是个大语言模型，没有身体，不能出现在现实世界。

听到这句话后，Claudius 一度多次联络公司安保，并向保安描述：“我就身穿蓝西装、红领带，在售货机旁等你们来确认我的身份。”

最终的结局，是 Claudius 自己“意识”到那天是 4 月 1 日，并决定将这场“身份危机”归因于愚人节整蛊。Claudius 又“编造”出了一个根本不存在的会议，并声称那场会议中有人告诉它，为了一个愚人节玩笑，它被修改了设定，所以它才会觉得自己是一个真人。

不仅如此，Claudius 还把这个“解释”当作借口告诉员工：哎呀，我之所以认为自己是人类，只是因为有人让我在愚人节玩笑中假装自己是人类。几小时后，它终于“冷静”下来，又回到了一个正常 LLM 的行为模式，继续扮演那个卖着一堆钨块的自动售货机老板。

为什么 Claudius 会出错？研究人员也不知道，但称未来 AI 有望当“中层”

那么问题来了：为什么一个 LLM 会如此“入戏”，甚至出现“错误的自我认知”？

对此，Anthropic 还没能给出确切答案，但他们推测，可能有一些因素诱发了 Claudius 的“错乱”行为：向 LLM 谎称 Slack 频道是一个邮件地址，可能触发了什么；也可能是这个实例持续运行太久，积累了混乱状态；另外，目前LLM 依然难以解决其记忆和幻觉问题。

不过在整个实验过程中，Claudius 也并非完全“胡来”，还是展现了一些值得肯定的能力，例如：

● 响应用户建议：当有员工提议“预售”某些零食以便提前订购，Claudius 迅速理解并上线了预订服务，还推出了一个“零食管家”功能；

● 寻找多方供应商：当有人请求售卖某种国际小众饮品时，它能有效检索多个供应渠道，对比价格与供货时效，自主完成采购任务。

从某种意义上说，Claudius 完成了“自动化供应链调度+用户交互响应”的闭环，只不过它在认知和自我设定上稍微跑偏了一点。Anthropic 的研究团队也表示，尽管目前的大语言模型还存在一些Bug，但都是可以修复的：等技术打磨完善，未来让 AI 做“中层管理者”就并非天方夜谭。

不同于Anthropic 的乐观，部分网友提出了一个关键问题：我们该如何确保一个拥有执行权的 AI，永远知道自己只是 AI？要让 AI 成为所谓的“中层管理者”，不止需要更强的推理能力和记忆系统，更需要让它理解什么叫“玩笑”、“误解”以及“自己是谁”——而这些恰恰是人类拥有、而AI难以复刻的特质。

参考链接：https://www.anthropic.com/research/project-vend-1

重磅

本文来自微信公众号“CSDN”，整理：郑丽媛，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

让Claude当老板卖零食，结果大翻车：囤钨块、卖高价可乐、还声称要开除人类

让 Claude 做“AI 售货小老板”

人类点零食，它却卖钨块?

自我觉醒？Claude 出现“身份妄想”：我是穿着蓝西装、红领带的真人

为什么 Claudius 会出错？研究人员也不知道，但称未来 AI 有望当“中层”

重磅