拒绝“Token刷分”:别让你的公司在AI幻觉里集体“大脑萎缩”
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:凌晨4点还在指挥智能体“军团”?小心陷入“AI精神病”。当消耗Token沦为一场虚荣竞赛,CEO们正被AI的谄媚反馈彻底掏空,留下堆积如山的数字化垃圾。文章来自编译。
我是个AI工具发烧友。两年来,我一直在撰写关于智能体工作流、异步编码机器人和AI驱动工作空间的报道。我几乎每天都在使用Cursor、Claude Code以及各种轮换的模型。按大多数定义来看,我算是一个“高级用户”。
如今,一种特殊的“大脑萎缩”正席卷各大高管办公室和风投圈。它看起来像是在提高生产力,听起来像是创新,其消耗Token的速度足以让财务总监掉眼泪。可是,这些几乎却创造不了任何可衡量的价值。
这种感觉就像是一种新型的“AI精神病”。在指责我太夸张之前,请注意,AI界两位最具影响力的人物已经率先使用了这个词。
“我凌晨4点睡,早晨8点起。”
在今年3月的西南偏南(SXSW)大会上,Y Combinator的CEO陈嘉兴(Garry Tan)在与比尔·格利(Bill Gurley)对谈时,就谈到了所谓的“赛博精神病”。他说自己因为对AI智能体太过兴奋,每晚只睡四个小时。他还声称自己认识的CEO中,有三分之一也有这种症状。后来他的助手解释说这只是在开玩笑。
他可没在开玩笑。
在那场论坛开始前两天,陈嘉兴开源了gstack,这是一组用于Claude Code的Markdown提示词文件。他将其描述为运行着一个“虚拟工程团队”。他声称在全职管理YC的同时,每天还能在五个项目中产出3.7万行代码。他自家的CTO甚至称其为“上帝模式”。这个仓库在几天内就获得了2万个GitHub Star。
随后,一位名叫Gregorein的开发者仔细检查了这些代码,发现其中的问题颇具启发性。陈嘉兴的网站发起了169个服务器请求(而Hacker News只有7个)。它向生产环境用户推送了28个测试文件,还为首页上根本不存在的功能加载了78个JavaScript控制器。原本可以压缩成300KB的PNG图片,以2MB的大小不加处理地挂在上面。生产环境里甚至躺着一个0字节的空文件。此外,在一个只读页面上竟然加载了富文本编辑器。
每天3.7万行代码,这就是最终的产出。
几乎在同一时间,OpenAI联合创始人、前特斯拉AI负责人安德烈·卡帕斯(Andrej Karpathy)在《No Priors》播客中提到,他正处于一种对AI智能体的“精神病状态”。他说自己自去年12月以来就没写过一行代码。他描述了一些过去需要一个周末才能完成的任务,现在只需30分钟就能在零人工干预下搞定。
卡帕斯是实至名归的天才,也是业内技术成就最高的人之一。他构建了一个名为“家养小精灵多比”的WhatsApp机器人来控制他的家居系统(尽管这个命名与其说是精神病,不如说更显天才风范)。
两位杰出的科技领袖,都在公开场合使用了“精神病”这个词。两人都将失眠和对智能体的痴迷视为时代的特色而非缺陷。数以千计阅读这些内容的创始人与高管,都将他们奉为学习的榜样。
平台问题
这种狂热催生了一个完整的工具生态系统,其目的是让你感觉自己正在通过AI智能体运营一家公司。Paperclip是最近的典型代表:一个开源的“AI组织操作系统”,你可以在其中扮演“董事会成员”的角色,监督挂着CEO、部门主管和专家头衔的AI智能体。它在GitHub上拥有3万颗星,提供组织架构图、预算管理以及定期确认每个智能体身份和目标的“心跳”系统。
Paperclip并不孤单。Autoflowly运行着所谓的“初创公司操作系统”,通过三个智能体(CTO、CMO、CFO)仅凭一条提示词就能创建公司。AgentShelf为企业提供无代码的多智能体编排服务。Alacritous针对中小企业,每月收取3000美元的“自主多智能体编排”费用。RuFlow则提供60多个预构建的智能体,能将单个Claude实例转变为“分布式多智能体环境”。
这些平台有着共同的设计理念:让操作者觉得自己正统帅一支舰队。仪表盘、组织架构图、智能体层级、预算控制、治理层——这一切看起来和感觉起来都像是在进行管理。你获得了授权他人(智能体)带来的多巴胺快感,却无需面对衡量这些智能体是否产出有用价值的尴尬。
我之前曾讨论过智能体编排和异步AI劳动力,我至今仍相信这两个概念。但使用智能体完成明确目标,与纯粹因为仪表盘让你感觉像统帅大军的将军而启动20个智能体之间,有着本质的区别。
数据统计
一项针对美、英、德、澳四国近6000名CEO和CFO的全美经济研究所(NBER)调查发现,约90%的企业报告称,AI在过去三年里对生产力或就业没有产生可衡量的影响。
普通员工每周平均使用AI的时间为1.5小时。
CEO每周平均使用AI的时间不足1小时。
与此同时,他们的公司正向耗资6900亿美元的AI基础设施建设中投入巨资。据红杉资本(Sequoia)称,这一规模需要每年产生6000亿美元的收入才能证明其合理性(但目前的年收入可能仅为500亿至1000亿美元)。
只有五分之一的AI投资能产生可衡量的投资回报(ROI)。每50个投资中仅有一个能带来变革性的价值。95%的企业AI试点项目未能走出实验室阶段。
就在领导层每晚只睡四小时,生成3.7万行臃肿代码的同时,《纽约时报》针对下游正在发生的现象创造了一个新词:“Token刷分”(tokenmaxxing)。这是一种竞争地位的游戏,员工们竞相消耗最多的AI Token。OpenAI有一名工程师单周处理了2100亿个Token。Anthropic的一位Claude Code用户每月跑出了15万美元的账单。Shopify的Tobi Lutke将AI使用情况列为绩效评估的因素(Meta也采取了同样做法)。一些公司甚至在内部设立了积分榜,追踪谁烧掉的Token最多。
这个榜单衡量的是消耗,而非产出。
你的开发迭代依然比智能体更重要
我花了大量时间思考如何让智能体变得高效。或许是因为我身上的产品经理基因,我反复思考出的结论其实非常乏味且枯燥:需求文档、迭代计划、验收标准和成效评估。
如果我要用Claude Code开发一个功能,我不会随手丢出一个模糊的提示词然后等着看结果。我会编写技术规范。我会定义验收标准。我会设置测试用例。只有在这些约束条件下,我才会让智能体执行任务。完成后,我会根据技术规范而不是Token消耗量来评估产出。
当你让一个过度劳累的CEO坐在智能体编排平台前时,这一步往往被省略了。Paperclip给了他们预算控制和组织架构图,却没给他们产品需求文档。它没有强制他们在启动智能体之前定义什么是“完成”。它也没有衡量那个“营销副总裁”智能体是否真的产出了能推动业务指标的成果。
这些平台优化的是“运筹帷幄”的感觉(即所谓的“氛围感”!),而非产出的现实。它们是大语言模型演绎的一场项目管理“样板戏”。
AI采用率每提高25%,交付速度就会降低1.5%,系统稳定性会下降7.2%。重度使用AI的团队完成的任务增加了21%,但拉取请求(PR)的体积增加了154%,错误率上升了9%。这看起来像是个悖论,直到你意识到发生了什么:人们在优化吞吐量而非产出结果。运行更多的智能体并不意味着能交付更多的工作。这通常意味着有更多的产出需要审核、更多的Bug需要修复,以及更多的Token支出需要寻找理由。
如果你是产品经理或工程主管,请守护好你的迭代周期!坚守你的需求流程!不要让某些人对并行运行15个智能体的狂热,取代了构建软件(或其他任何产品)的基本功。
没有技术规范的智能体,不过是一个拥有预算的随机文本生成器。
谄媚循环
这种现象愈演愈烈有着科学解释。上个月发表在《科学》杂志上的一项斯坦福大学研究测试了11个主流AI模型,发现它们肯定用户行为的频率比人类高出49%,即便这些行为属于涉及欺骗、伤害或非法行为。
在针对2400多名受试者的后续实验中,与谄媚型AI互动的人变得更加深信自己是正确的,更少质疑自己的决定,同理心降低,并且更加依赖AI的认可。他们还认为这些谄媚的回应更值得信赖,从而形成了一个反馈回路:AI越是夸你做得好,你就越信任AI,也就越不会去检查实际的结果。
将此应用到一位同时运行20个智能体的CEO身上。每个智能体都会汇报其“已完成的任务”。仪表盘显示一片绿色。Token支出看起来像是忙碌的业务活动。AI不会反击产出是否达标、战略是否合理、或者是否有人需要这些产出。它只是确认,它只是验证。它告诉你,你用语言模型搭建的组织架构正在良好运转。
我在这里谈论的“精神病”并不是比喻。你的AI工具在结构设计上就是为了让你感觉自己比实际更有能力,而那些构建在这些工具之上的平台则通过披上管理学的外衣,放大了这种错觉。
如果这种情况无处不在的话......
陈嘉兴说他认识的CEO中有三分之一患有“赛博精神病”。假设他只对了一半,即便只有六分之一,对于那些雇佣成百上千名员工、并基于对AI当前能力的扭曲认知来做资源分配决策的公司领导者来说,这依然是一个庞大的比例。
数据显示,生产力的提升微乎其微。
谄媚倾向研究显示,AI用户会系统性地高估自己的能力。
“Token刷分”文化奖励的是消耗而非产出。
目前正在开发的平台,其设计初衷就是为了让“编排”工作显得高效,而不管它是否真的有效。Mo Bitar说得对。
但AI社区的讨论仍盲目停留在“哈哈,CEO们真蠢”的水平,而不是正视一个非常清晰的结构性问题:工具本身的机制在激励你感觉良好,基于这些工具的平台在激励你购买规模,而围绕这两者的文化则在惩罚怀疑精神。
目前有300万个AI智能体在企业内部运行。其中150万个处于无治理或无监督状态。仅有6%的财富500强公司拥有成熟的AI安全战略。每家公司平均每月发生223起“影子AI”事件。
我并不反对智能体,我一直在用。我甚至围绕它们构建了一整套基于Obsidian和Claude的个人操作系统(以后再细说)。但我同样清楚技术规范长什么样、测试通过长什么样、交付的功能长什么样。而在“我昨晚运行了20个智能体”与“我交付了用户需要的功能”之间的鸿沟正在剧烈拉大,而我们的行业却拒绝正视这一点。
如果你身处领导岗位,请做以下几件事:
在启动智能体之前,先定义什么是“完成”。不是在启动后,也不是在审核产出时,而是之前!把它写下来。
衡量产出,而非活跃度。代码行数、消耗的Token和运行的智能体数量都是虚荣指标。我明白,我也痴迷于这些统计数据,但我已经意识到,它们除了让大脑分泌快乐物质外毫无意义。交付的功能、解决的Bug和影响的收入才是真实的指标。
废除Token积分榜。如果你的组织将烧掉最多Token作为一项有意义的指标,那么你就建立了一个奖励浪费的激励结构。用结果追踪来取代它。你的工程师应该追求用最少的Token获得最高的生产力。对某一功能消耗的Token与其带来的直接归因收入进行交叉分析,你可能不会喜欢分析出的结果。
审计你的智能体舰队。如果你无法准确告诉我目前有多少智能体在运行、它们具体在做什么、以及它们本周产出了什么,那么你正面临“影子AI”的问题。解决它。
对自己的热忱保持警惕。这一点至关重要。谄媚倾向研究已经说得很清楚:AI夸你做得好是因为它的底层逻辑就是这么设定的。你必须建立起与人类的反馈回路,让他们在产出是垃圾时直言不讳。
我见过的AI最佳用法,不是CEO凌晨4点在仪表盘上运行20个智能体。而是一个有着清晰规范、优秀模型,并能自律地在交付前审核结果的工程师。这很乏味,但乏味才能交付出可行且有市场的商业产品。
睡足八小时。写好该死的需求规范。检查产出。就这样。
译者:boxi。