拒绝“Token刷分”！避免公司在AI幻觉中集体“大脑萎缩”

这可不是在开玩笑，这要变成一个大问题了

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：凌晨4点还在指挥智能体“军团”？小心陷入“AI精神病”。当消耗Token沦为一场虚荣竞赛，CEO们正被AI的谄媚反馈彻底掏空，留下堆积如山的数字化垃圾。文章来自编译。

我是个AI工具发烧友。两年来，我一直在撰写关于智能体工作流、异步编码机器人和AI驱动工作空间的报道。我几乎每天都在使用Cursor、Claude Code以及各种轮换的模型。按大多数定义来看，我算是一个“高级用户”。

如今，一种特殊的“大脑萎缩”正席卷各大高管办公室和风投圈。它看起来像是在提高生产力，听起来像是创新，其消耗Token的速度足以让财务总监掉眼泪。可是，这些几乎却创造不了任何可衡量的价值。

这种感觉就像是一种新型的“AI精神病”。在指责我太夸张之前，请注意，AI界两位最具影响力的人物已经率先使用了这个词。

“我凌晨4点睡，早晨8点起。”

在今年3月的西南偏南（SXSW）大会上，Y Combinator的CEO陈嘉兴（Garry Tan）在与比尔·格利（Bill Gurley）对谈时，就谈到了所谓的“赛博精神病”。他说自己因为对AI智能体太过兴奋，每晚只睡四个小时。他还声称自己认识的CEO中，有三分之一也有这种症状。后来他的助手解释说这只是在开玩笑。

他可没在开玩笑。

在那场论坛开始前两天，陈嘉兴开源了gstack，这是一组用于Claude Code的Markdown提示词文件。他将其描述为运行着一个“虚拟工程团队”。他声称在全职管理YC的同时，每天还能在五个项目中产出3.7万行代码。他自家的CTO甚至称其为“上帝模式”。这个仓库在几天内就获得了2万个GitHub Star。

随后，一位名叫Gregorein的开发者仔细检查了这些代码，发现其中的问题颇具启发性。陈嘉兴的网站发起了169个服务器请求（而Hacker News只有7个）。它向生产环境用户推送了28个测试文件，还为首页上根本不存在的功能加载了78个JavaScript控制器。原本可以压缩成300KB的PNG图片，以2MB的大小不加处理地挂在上面。生产环境里甚至躺着一个0字节的空文件。此外，在一个只读页面上竟然加载了富文本编辑器。

每天3.7万行代码，这就是最终的产出。

几乎在同一时间，OpenAI联合创始人、前特斯拉AI负责人安德烈·卡帕斯（Andrej Karpathy）在《No Priors》播客中提到，他正处于一种对AI智能体的“精神病状态”。他说自己自去年12月以来就没写过一行代码。他描述了一些过去需要一个周末才能完成的任务，现在只需30分钟就能在零人工干预下搞定。

卡帕斯是实至名归的天才，也是业内技术成就最高的人之一。他构建了一个名为“家养小精灵多比”的WhatsApp机器人来控制他的家居系统（尽管这个命名与其说是精神病，不如说更显天才风范）。

两位杰出的科技领袖，都在公开场合使用了“精神病”这个词。两人都将失眠和对智能体的痴迷视为时代的特色而非缺陷。数以千计阅读这些内容的创始人与高管，都将他们奉为学习的榜样。

平台问题

这种狂热催生了一个完整的工具生态系统，其目的是让你感觉自己正在通过AI智能体运营一家公司。Paperclip是最近的典型代表：一个开源的“AI组织操作系统”，你可以在其中扮演“董事会成员”的角色，监督挂着CEO、部门主管和专家头衔的AI智能体。它在GitHub上拥有3万颗星，提供组织架构图、预算管理以及定期确认每个智能体身份和目标的“心跳”系统。

Paperclip并不孤单。Autoflowly运行着所谓的“初创公司操作系统”，通过三个智能体（CTO、CMO、CFO）仅凭一条提示词就能创建公司。AgentShelf为企业提供无代码的多智能体编排服务。Alacritous针对中小企业，每月收取3000美元的“自主多智能体编排”费用。RuFlow则提供60多个预构建的智能体，能将单个Claude实例转变为“分布式多智能体环境”。

这些平台有着共同的设计理念：让操作者觉得自己正统帅一支舰队。仪表盘、组织架构图、智能体层级、预算控制、治理层——这一切看起来和感觉起来都像是在进行管理。你获得了授权他人（智能体）带来的多巴胺快感，却无需面对衡量这些智能体是否产出有用价值的尴尬。

我之前曾讨论过智能体编排和异步AI劳动力，我至今仍相信这两个概念。但使用智能体完成明确目标，与纯粹因为仪表盘让你感觉像统帅大军的将军而启动20个智能体之间，有着本质的区别。

数据统计

一项针对美、英、德、澳四国近6000名CEO和CFO的全美经济研究所（NBER）调查发现，约90%的企业报告称，AI在过去三年里对生产力或就业没有产生可衡量的影响。

普通员工每周平均使用AI的时间为1.5小时。

CEO每周平均使用AI的时间不足1小时。

与此同时，他们的公司正向耗资6900亿美元的AI基础设施建设中投入巨资。据红杉资本（Sequoia）称，这一规模需要每年产生6000亿美元的收入才能证明其合理性（但目前的年收入可能仅为500亿至1000亿美元）。

只有五分之一的AI投资能产生可衡量的投资回报（ROI）。每50个投资中仅有一个能带来变革性的价值。95%的企业AI试点项目未能走出实验室阶段。

就在领导层每晚只睡四小时，生成3.7万行臃肿代码的同时，《纽约时报》针对下游正在发生的现象创造了一个新词：“Token刷分”（tokenmaxxing）。这是一种竞争地位的游戏，员工们竞相消耗最多的AI Token。OpenAI有一名工程师单周处理了2100亿个Token。Anthropic的一位Claude Code用户每月跑出了15万美元的账单。Shopify的Tobi Lutke将AI使用情况列为绩效评估的因素（Meta也采取了同样做法）。一些公司甚至在内部设立了积分榜，追踪谁烧掉的Token最多。

这个榜单衡量的是消耗，而非产出。

你的开发迭代依然比智能体更重要

我花了大量时间思考如何让智能体变得高效。或许是因为我身上的产品经理基因，我反复思考出的结论其实非常乏味且枯燥：需求文档、迭代计划、验收标准和成效评估。

如果我要用Claude Code开发一个功能，我不会随手丢出一个模糊的提示词然后等着看结果。我会编写技术规范。我会定义验收标准。我会设置测试用例。只有在这些约束条件下，我才会让智能体执行任务。完成后，我会根据技术规范而不是Token消耗量来评估产出。

当你让一个过度劳累的CEO坐在智能体编排平台前时，这一步往往被省略了。Paperclip给了他们预算控制和组织架构图，却没给他们产品需求文档。它没有强制他们在启动智能体之前定义什么是“完成”。它也没有衡量那个“营销副总裁”智能体是否真的产出了能推动业务指标的成果。

这些平台优化的是“运筹帷幄”的感觉（即所谓的“氛围感”！），而非产出的现实。它们是大语言模型演绎的一场项目管理“样板戏”。

AI采用率每提高25%，交付速度就会降低1.5%，系统稳定性会下降7.2%。重度使用AI的团队完成的任务增加了21%，但拉取请求（PR）的体积增加了154%，错误率上升了9%。这看起来像是个悖论，直到你意识到发生了什么：人们在优化吞吐量而非产出结果。运行更多的智能体并不意味着能交付更多的工作。这通常意味着有更多的产出需要审核、更多的Bug需要修复，以及更多的Token支出需要寻找理由。

如果你是产品经理或工程主管，请守护好你的迭代周期！坚守你的需求流程！不要让某些人对并行运行15个智能体的狂热，取代了构建软件（或其他任何产品）的基本功。

没有技术规范的智能体，不过是一个拥有预算的随机文本生成器。

谄媚循环

这种现象愈演愈烈有着科学解释。上个月发表在《科学》杂志上的一项斯坦福大学研究测试了11个主流AI模型，发现它们肯定用户行为的频率比人类高出49%，即便这些行为属于涉及欺骗、伤害或非法行为。

在针对2400多名受试者的后续实验中，与谄媚型AI互动的人变得更加深信自己是正确的，更少质疑自己的决定，同理心降低，并且更加依赖AI的认可。他们还认为这些谄媚的回应更值得信赖，从而形成了一个反馈回路：AI越是夸你做得好，你就越信任AI，也就越不会去检查实际的结果。

将此应用到一位同时运行20个智能体的CEO身上。每个智能体都会汇报其“已完成的任务”。仪表盘显示一片绿色。Token支出看起来像是忙碌的业务活动。AI不会反击产出是否达标、战略是否合理、或者是否有人需要这些产出。它只是确认，它只是验证。它告诉你，你用语言模型搭建的组织架构正在良好运转。

我在这里谈论的“精神病”并不是比喻。你的AI工具在结构设计上就是为了让你感觉自己比实际更有能力，而那些构建在这些工具之上的平台则通过披上管理学的外衣，放大了这种错觉。

如果这种情况无处不在的话......

陈嘉兴说他认识的CEO中有三分之一患有“赛博精神病”。假设他只对了一半，即便只有六分之一，对于那些雇佣成百上千名员工、并基于对AI当前能力的扭曲认知来做资源分配决策的公司领导者来说，这依然是一个庞大的比例。

数据显示，生产力的提升微乎其微。

谄媚倾向研究显示，AI用户会系统性地高估自己的能力。

“Token刷分”文化奖励的是消耗而非产出。

目前正在开发的平台，其设计初衷就是为了让“编排”工作显得高效，而不管它是否真的有效。Mo Bitar说得对。

但AI社区的讨论仍盲目停留在“哈哈，CEO们真蠢”的水平，而不是正视一个非常清晰的结构性问题：工具本身的机制在激励你感觉良好，基于这些工具的平台在激励你购买规模，而围绕这两者的文化则在惩罚怀疑精神。

目前有300万个AI智能体在企业内部运行。其中150万个处于无治理或无监督状态。仅有6%的财富500强公司拥有成熟的AI安全战略。每家公司平均每月发生223起“影子AI”事件。

我并不反对智能体，我一直在用。我甚至围绕它们构建了一整套基于Obsidian和Claude的个人操作系统（以后再细说）。但我同样清楚技术规范长什么样、测试通过长什么样、交付的功能长什么样。而在“我昨晚运行了20个智能体”与“我交付了用户需要的功能”之间的鸿沟正在剧烈拉大，而我们的行业却拒绝正视这一点。

如果你身处领导岗位，请做以下几件事：

在启动智能体之前，先定义什么是“完成”。不是在启动后，也不是在审核产出时，而是之前！把它写下来。
衡量产出，而非活跃度。代码行数、消耗的Token和运行的智能体数量都是虚荣指标。我明白，我也痴迷于这些统计数据，但我已经意识到，它们除了让大脑分泌快乐物质外毫无意义。交付的功能、解决的Bug和影响的收入才是真实的指标。
废除Token积分榜。如果你的组织将烧掉最多Token作为一项有意义的指标，那么你就建立了一个奖励浪费的激励结构。用结果追踪来取代它。你的工程师应该追求用最少的Token获得最高的生产力。对某一功能消耗的Token与其带来的直接归因收入进行交叉分析，你可能不会喜欢分析出的结果。
审计你的智能体舰队。如果你无法准确告诉我目前有多少智能体在运行、它们具体在做什么、以及它们本周产出了什么，那么你正面临“影子AI”的问题。解决它。
对自己的热忱保持警惕。这一点至关重要。谄媚倾向研究已经说得很清楚：AI夸你做得好是因为它的底层逻辑就是这么设定的。你必须建立起与人类的反馈回路，让他们在产出是垃圾时直言不讳。

我见过的AI最佳用法，不是CEO凌晨4点在仪表盘上运行20个智能体。而是一个有着清晰规范、优秀模型，并能自律地在交付前审核结果的工程师。这很乏味，但乏味才能交付出可行且有市场的商业产品。

睡足八小时。写好该死的需求规范。检查产出。就这样。

译者：boxi。