软件正在蚕食世界,这次是真的了
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:别再把AI当聊天工具了。智能体正靠疯狂烧Token接管真实工作,一场万亿级的“推理海啸”已无声引爆。文章来自编译。
2011年,软件蚕食了世界。至少马克·安德森(Marc Andreessen)是这么告诉我们的。但如果真是这样,为什么旧金山湾区依然存在?如果软件真的蚕食了一切,我们现在不应该都搬到纽约或迈阿密去了吗?
实际上,让我们看看软件到底蚕食了什么:银行有了App,零售业有了网站,医院引进了电子健康档案(EHR)系统,而出租车只需点几下屏幕就能调度,再也不用在凌晨两点、甚至连自己在哪儿都记不清的时候打电话叫车了。
软件蚕食了界面,但实际的工作呢?大部分还是由人类来做。
客户因为账单争议打电话来,软件负责转接电话、弹出账户界面,并在结束后记录处理结果。但在整个过程中,依然是人类在倾听、判断是否适用退款政策、决定如何处理,并真正与客户沟通。信贷员审查贷款申请时,软件会显示信用评分并在屏幕上调出文件,但阅读这些文件并做出最终决定的还是信贷员自己。过去15年来,软件一直非常擅长扮演“管道”的角色,而核心的实际工作仍由人类承担。
现在,AI真的可以做这些工作了!一次客服电话正在变成一个智能体循环(agent loop):系统处理语音识别,通过API查询账户,调取相关政策,推断客户是否符合条件,触发退款,并利用文字转语音(TTS)进行回复。一起保险理赔正在演变为文档录入,随后是保额核查、欺诈标记、准备金计算和结算流程,这一切都全自动地作为代码运行。一个编程任务已经可以包含30轮的文件读取、代码修改、测试运行和调整优化,期间完全不需要人类插手。
这些工作流中的每一个,本质上都是一段软件在循环中执行工具调用(tool calls)。如果你是一个看日志的推理服务商,你会发现处理账单争议的客服智能体和修复Bug的编程智能体看起来没什么两样。它们都是代码。
所以,软件再次开始蚕食世界,而这一次,推理(inference)正在真真切切地蚕食工作。那些被蚕食的工作负载,本质上只是披着人类外衣的“状态转移”和“异常处理”:客服电话、保险理赔、贷款审批、医疗行政、法律分析。每一个任务在几十个步骤中,每一步都要烧掉数千个Token,而且往往是多个模型同时运行。整个推理市场每天已经处理数十万亿个Token,并且正在呈乘数级增长:用户越来越多,更多的工作流演变为代码,而且随着模型能力的提升,每个任务消耗的Token也在激增。
哪些工作负载会被蚕食
当一项工作本质上只是状态转移加异常处理时,它就会被代码所吸收。从事这项工作的人可能挂着“理赔员”、“贷款审批员”或“收入周期专家”等头衔,但如果你观察他们整天都在干什么,无非是:查看输入、对照一套规则、决定它归入哪个类别、执行操作、处理奇葩的特例,然后进入下一个。如果输入可以被捕获为文本、语音或文档,中间状态存在数据库中,输出是诸如“更新此记录”、“发送此消息”或“触发此API调用”之类的内容,那么整个过程完全可以、也必然会作为一个智能体循环来运行。
决定这个循环能走多深的还有一个关键条件:验证(verification)。在编程中,智能体可以自主循环30步甚至更多,因为验证是即时且免费的。测试要么通过,要么不通过。
但在诸如新药研发等领域,真正的验证需要耗时数周或数月的湿实验室;或者在机器人领域,“仿真到真实世界”(sim-to-real)的差距仍是瓶颈,智能体的循环就会碰壁。随着时间的推移,这些领域会消耗更多的推理,但循环能转多久存在一个天花板,因为它必须等待物理世界跟上脚步。
当客服智能体解决一张工单时,验证标准是“API调用成功了吗?记录更新了吗?”甚至是“用户对回答满意吗?”。当贷款审批智能体处理一份申请时,验证标准是“这份文件符合要求吗?合规检查通过了吗?”
我认为大多数人都极大地低估了这些转型后的工作流实际上消耗了多少推理资源,因为在他们的想象中,这依然是一个模型、一次调用、一个回答,中间可能还伴随着一些幻觉。但现实完全是另一回事。
以一个处理看似简单、却很实际的业务——比如重新预约医生——的语音客服智能体为例。对客户来说,这感觉就像是一次普通的对话。但在底层,这是一个持续运行的小型自主系统。当来电者说话时,语音识别模型实时转写音频。接着,一个编排模型对转写内容进行推理,调取患者档案,检查时间限制,查询医生的可用时间,决定下一步问什么,并调用相关工具。一旦掌握了足够的信息,它就会将结果整合进回复中,再由文字转语音模型将其转化为自然的语音。与此同时,其他模型可能还在监测情绪、进行合规检查,或者判断是否需要将通话转接给人工客服。
系统自己包揽了所有工作:倾听、检索、决策、调用工具、验证并在循环中做出响应。一个8分钟的通话可能只包含约3000个Token的原始转写文本,但算上在不断拉长的对话内容、检索到的上下文以及工具输出上进行的反复推理,再加上贯穿整个通话期间的持续ASR(语音识别)和TTS(文字转语音)推理,编排层可以轻而易举地消耗掉约4万个Token。“一次AI电话通话”实际上是一个持续运行的多模型推理栈。
哪些领域正在崛起
上述类别已经有了生产环境部署、实际应用,且工作流已经明显被代码所取代。但还有第二梯度的市场,同样的动态正在开始显现,只是它们在发展曲线上还处于更早期的阶段。
法律领域就是一个很好的例子。第一波法律AI主要停留在搜索层:寻找相关案例、找出风险条款、摘要合同。这非常实用,但从推理的角度来看相对表浅。而现在正在兴起的智能体工作则要重得多。想象一下一个并购(M&A)尽职调查智能体,可阅读整个数据室的所有资料,将购买协议与披露附表及尽调材料进行交叉比对,找出不一致之处,撰写带有引用出处的风险备忘录,并提出修订建议。这种新型的法律智能体是一个在海量语料库上运行的长期工作流,它产出的是一个初级律师原本需要花几天时间才能组装好的真实工作成果。这种转变是从“帮助人类寻找信息”变成了“自己做分析”,从而将任务从几次轻量级的检索调用推向了深度的、多步骤的循环。
金融、会计、供应链、政府事务处理和采购都具有类似的形态:大量的文件、大量的异常处理、大量的中间决策,以及超出人们想象的复杂验证。这些是未来几年最值得密切关注的类别,因为它们正处于模型能力的临界点。随着任务跨度(task horizons)的不断延伸,这一中坚地带将会有越来越多被代码所蚕食。
Token阶梯
在一个真实的源代码库上打开 Claude Code,并让它修复一个 Bug,比如:“认证流程中存在一个竞态条件(race condition),只有在高负载下才会出现”。在它做任何真正有用的事情之前,这个智能体需要读取:相关的源文件、测试用例、配置,可能还有一些日志。这很容易在刚开始就产生约6万个Token的上下文。
接下来它就会进入循环。它会读取失败的测试,检查认证模块,提出假设,修改锁逻辑,在新代码上运行测试,得到了一个新错误(这就是进展!),修正假设,然后重试。有时候,这个修复甚至会破坏上游的某些内容,智能体不得不重新读取它之前触及的某个依赖项。它一遍又一遍地重复这个过程:读取、修改、运行、检查、修正。经过30次迭代后,测试终于通过了,代码差异(diff)被清理干净,整个测试套件进行了最后一次运行。
这花费了实际时间3分钟,而你可能已经烧掉了约90万个Token。
令人震惊的是,肉眼可见的输出微乎其微。可能只有区区500个Token的实际代码和一段解释。而其余的约89.95万个Token全是循环机制的消耗:重放累积的上下文、接收最新的工具输出、推理下一步该尝试什么,以及结转保持连贯性所需的所有历史记录。答案很精简,工作很昂贵。
对比一下在智能体时代之前,同一个模型回答一个直接的问题,比如:“乐观锁和悲观锁的区别是什么?”这总共大概只需要约900个Token。
智能体循环可以将推理需求提高大约三个数量级。我把它看作是一个“Token阶梯”,经济体中的每一项任务都处在这个阶梯的某个位置上。
底部是普通对话:一问一答,没有工具,大约900个Token。
再往上一阶是检索:模型搜索几份文档,阅读并撰写一篇综合综述。现在消耗接近7500个Token。大部分开销不在于答案本身,而在于模型读取和重放检索到的上下文。
再往上是客服。一个基础的FAQ机器人可以保持相对轻量。幕后一个能够检查你的账户、调取相关政策、推理准入资格并真正执行操作的智能体化客服系统要沉重得多。表面上的交互看起来一样,推理的画像却完全不同。
接着是编程,它位于阶梯顶端附近。一个有界的Bug修复可能会飙升到数十万个Token。一次真正的调试或功能开发会话可以跑出接近一百万个Token。Anthropic的 Claude Code 文档指出,一个活跃的开发者每天在推理上能烧掉大约13美元,根据模型组合和缓存情况,这大约相当于每天150万到300万个Token。几个复杂的编程任务所消耗的推理资源,就可能超过一千次对话。
隐藏在底层的模式很简单:每个任务的Token数 = 初始上下文 + (步骤数 × 每步Token数)
在这个阶梯的最底端,只有一个步骤,几乎没有上下文,也没有工具。而在顶端,则有几十个步骤。每一步都在重放不断增加的历史记录,引入最新的工具输出,并对其进行推理,最终只吐出极少量的可见工作成果。这就是为什么各阶梯之间会拉得如此之开。
为什么阶梯还在不断爬升
METR(全世界最重要的一张图表的制作者)一直在衡量前沿模型能自主处理多步骤任务多长时间。他们将自己的基准测试与人类专家完成相同任务所需的时间进行校准,因此结果是以时间为单位的:一个模型“能处理30分钟的任务”意味着它能可靠地完成一项需要熟练人类花费大约30分钟的工作。
而这条曲线的发展速度可以用荒谬来形容。GPT-4大约是4分钟。Claude 3.5 Sonnet达到了大约11分钟。Claude 3.7 Sonnet延长到了大约一小时。o3达到了约2小时。GPT-5落在了3.5小时附近。而最新的前沿模型(如 Claude Opus 4.6)正在迈向12小时。这相当于在短短两年内,自主任务的时间跨度增加了大约180倍,根据METR的测量,自2023年以来,这一时间的翻倍周期大约仅为131天。
为什么这对于推理需求至关重要?因为更长的任务跨度不仅意味着“模型变聪明了”,更意味着模型可以在循环中呆得更久。一个只能处理4分钟任务的模型可能只是读取一点上下文,采取几个行动,然后就停下来了。而一个能处理4小时任务的模型可以进行读取、调用工具、检查输出、修正计划,并持续进行下去,直到完成一项内容充实的大任务。每增加一次循环,都意味着更多的上下文重放、更多的工具输出、更多的中间状态和更多的推理。因此,随着能力的提升,每个任务消耗的Token也随之水涨船高(通常呈超线性增长)。
你可以在具体的工作负载中看到这一点。在客户服务中,2023年一个基础的FAQ机器人处理一张工单可能只消耗约3500个Token,更好的检索技术将这一数字推高,随后工具使用和推理再次将其拉升,而现在的全语音支持栈则还要高得多。编程也遵循同样的模式,只是表现得更为剧烈:过去一个局限的编程任务只需要几万个Token,而现在,随着智能体强大到能够处理真正的调试、重构和多文件协作,这一数字已经变成了几十万甚至远远超过一百万。现在,每一项有价值的任务都能证明比一两年前多得多的推理开销的合理性,因为模型确实能够把活干完了。
这就是杰文斯悖论(Jevons paradox)的微妙版。对于前沿模型来说,单个Token的标价实际上是在上升的,而不是在下降。但每百万个Token所带来的价值增长得要快得多:今天的跨时代前沿模型可以在一个连贯的会话中完成一整套工作流,而在一年以前,这可能需要几十次漏洞百出的尝试,或者压根就无法做到。即便名义上的Token成本在上升,每次获得有用结果的实际有效成本却在下降。正是这种动态开启了全新领域的蓝海:复杂的保险理赔、广泛的代码重构、长期运行的研究任务、多步骤的后勤行政流程。两年前,这些甚至都不能算是推理市场的有效组成部分,因为当时的模型根本无法保持足够长时间的连贯性来完成它们。
汇总后的数据表明这一切已经在发生。截至2026年4月,OpenAI的API每分钟处理的Token数已超过150亿,高于半年前的60亿。谷歌在一年内从每月9.7万亿个Token激增至480万亿个,增长了约50倍。OpenAI透露,每家企业组织的推理Token消耗量同比增长了320倍。Anthropic最新报告的年化收入达到了300亿美元(今年年初还只是100亿美元……),这本身就足够说明问题,尤其是考虑到其核心增长动力正是 Claude Code 和他们的 API。
这种爆发是三条曲线叠加复合的结果:用户越来越多、每个用户路由给模型的任务越来越多,以及随着模型能够承受更长、更深的工作流,每个任务消耗的Token也越来越多。如果用户翻两三倍,人均任务量也攀升,在此基础上每个任务的Token消耗量再次上涨,那么总体需求的前进速度将远远超过其中任何一条孤立的曲线。谷歌同比约50倍的Token增长,正是这种复合效应在现实世界中的真实写照。
这就是为什么我认为目前的市场规模依然远远低估了它的未来走向。即使是保守估计,目前各大服务商合计每天的市场容量也达到了10万亿+ Token。而在中性情景下,我认为到2028年你将看到10倍于此的Token规模。我们仍处于一个早期阶段,此时更优秀的模型不仅是在从其他模型手中抢夺份额,更是把全新的工作负载拉入推理的版图中。
如何读懂这张图
如果你想理清某个特定行业的推理需求走向,或者正在评估一家在这些类别中耕耘的公司,我认为针对任何工作流,有这两个问题最值得探讨。
第一个是:它在多大程度上具有“编程的形态”?一个智能体能否在没有人类干预的情况下连续忙碌20步或更多?其中是否涉及工具调用,如数据库查询、API请求或文档检索?智能体能否通过某种数字化检查来验证自己的工作?一个工作流越具有“编程的形态”,每个任务在Token阶梯上的位置就越高,单次交互所烧掉的推理资源也就越多。
这个谱系由几个维度决定。输入结构化程度如何?使用标准化表格的房屋贷款申请,就比带有自由发言证词的法律纠纷更具“编程形态”。决策逻辑的确定性如何?贷款合规检查有着明确的通过/失败规则,而投资分析则包含见仁见智的裁量判断。验证的清晰度如何?一条记录要么更新正确,要么没有,但“这份合同修订是否真的让交易更合算?”则必须由人类来介入把关。输入越结构化、逻辑越具确定性、验证越数字化,工作流在图表上的位置就越偏右,智能体循环在需要人类介入前就能跑得更深入。
第二个是:它能带来多大的体量?每天有多少任务,每年发生多少次交互?即便单个任务的Token密集度一般,最高频次的工作流依然能驱动最庞大的总需求。
最迷人的机会正蕴藏在这两点都很大的地方。医疗行政、客户服务和保险业都拥有高度“编程形态”且具备庞大体量的工作流。这些是短期内最大的推理市场,市面上已经有真正出货的产品和实打实的使用数据证明了这一点。
在谱系的另一端,你也会遇到像芯片设计和形式验证(formal verification)这样的领域,那里的单席位Token密集度极为惊人(这是目前存在的最深的智能体循环之一),但总可触达用户群规模较小。不过,其付费意愿极高,这也让它们在另一个层面上极具吸引力。
接下来是法律、金融、会计、供应链和政府工作的中间地带,其发展动力显然强劲,但采用还处于早期。这些是在接下来的几年里值得紧密盯防的品类,因为METR能力曲线表明,模型即将强大到足以应付这些领域所需的、长达数小时且高度依赖判断的复杂工作流。
最后一件值得关注的事是:谁能长久留在这个“循环内部”。随着模型走向商品化(commoditize),那些能够基业长青的应用型公司必定是真正接触到实际核心工作的公司:包括工具调用、重试、逐级上报、纠错以及那些永远不会出现在基准测试里的长尾边缘案例(edge cases)。这才是系统学习特定工作流具体如何运转的地方,也是专有上下文开始沉淀的所在。久而久之,核心壁垒将不再仅仅是能否调用某个模型,而是深入了解这家保险公司如何处理理赔、这家医院如何应对拒付、这个代码库在哪里容易崩溃、这支财务团队如何进行结账。那些捕捉到这些复杂凌乱的业务运营数据的应用,才会以最快的速度迭代并能在最长的时间里守住自己的江山。
推理正在蚕食世界
软件首先蚕食了分发渠道。它给每家企业都配上了网站、App、CRM系统和结账流程。但大部分真正的工作依然落在了人的身上:接听电话、审查理赔、调试系统、核对账目、流转审批、追踪异常。
而现在正在发生的变化是,工作本身正在转化为软件。变成可以阅读、推理、调用工具、验证、修改并能持续挺进的软件。一次客服互动变成了一个智能体循环。一起理赔变成了一连串的模型调用。一个Bug变成了一个长期运行的系统,它会自动阅读代码、运行测试并反复迭代,直到找到解决方案。
这才是推理需求背后真正的衡量指标。越来越多的经济活动正在被拉入这个“Token阶梯”,并作为代码来执行。软件曾经通过屏幕连接并介入商业,从而蚕食了世界。而这一次,它可能会通过直接接管底层的实际工作,把这个世界蚕食得更彻底。
译者:boxi。