提升Agent的可信度后,企业会多一批好用的“数字员工”吗?
随着 AI 技术从“工具化”向“自主化”严谨,智能体(Agent)正在成为企业应用大模型的重要形态。那么,如何优化 Agent,让它变得更可信、更好用,最终能够成为企业优秀的“数字员工”?
近日 InfoQ《极客有约》X AICon 直播栏目特别邀请、RBC senior application support analyst 马可薇担任主持人,和值得买科技 CTO 王云峰、商汤科技大装置事业群高级技术总监鲁琲、明略科技集团高级技术总监吴昊宇一起,在AICon 全球人工智能开发与应用大会 2025 北京站即将召开之际,共同探讨如何提升企业 Agent 的“可信度”。
部分精彩观点如下:
- 未来可能真的不再存在传统意义上的软件界面,UI 可能完全消失,取而代之的是由 Agent 与系统直接交互。
- 协议的价值在于让生态中的每个角色,提供大脑、数据、工具或执行能力的厂商,都能使用同一种语言沟通,使大家可以把精力集中在自身专业领域,而无需耗费大量时间做适配工作。
- 许多模型在长文本中间部分存在遗忘问题,大海捞针本身就是不现实的任务。尽管大家都宣称拥有超长 context window,但真正有效的部分其实没有那么多。
- 真正的难点是业务模型与技术模型如何统一、如何对齐。纯技术层面的参数对齐反而是最不需要担心的,毕竟大家都是写程序的。
以下内容基于直播速记整理,经 InfoQ 删减。
定义 Agent 的技术边界
马可薇:很多人觉得 Agent 就是 Chatbot 加了几个插件。但从技术架构视角看,当系统目标从“对话”变成“行动”,你们认为技术栈上产生的最大一个质变是什么?
王云峰:我认为 chatbot 本身只是一个交互形态。过去大家在互联网上主要依赖点击,后来 AI 具备了对话能力,人们开始在对话框中和它交互;再后来端到端语音出现,AI 获得更强的多模态能力,使对话变得更自然、更强大;随后 Agent 的兴起又进一步扩展了它的可操作范围。
chatbot 只是一个界面,而关键逻辑在于背后的大模型。我们常把大模型比喻为“一个大脑”,而传统 chatbot 只是让用户通过简单的交互去压榨它的知识。但一个聪明的大脑需要外围系统,就像人需要眼睛、鼻子、触觉去感知世界,需要手脚完成操作。
完整的过程包括:模型接收任务,判断应采取的行动,感知外界、接收反馈,并基于反馈不断调整规划。这与过去单纯的 chatbot 模式有巨大差异,其技术复杂度和对生态的要求都远高于对话系统。
鲁琲:以对话为目的的 AI 与以行动为目的的 AI,其核心区别在于前者关注过程,后者关注结果。许多程序员应该还记得 GitHub Copilot 刚问世、没有 Agent 模式时的状态。当时它只有代码补全功能,本质上就是一个 chatbot。常见流程是:模型补全代码,如果结果不理想,程序员再向模型反馈并请它修改;代码执行报错后再把报错贴回去,让模型继续改,如此反复直到运行成功。
后来出现 Agent 模式,本质上仍是同一件事,只是 Agent 可以自动执行整套流程。之前的规划由人来做,需要人在脑中维护任务步骤、判断接下来要切换到测试、再根据结果回到编码等一系列上下文管理。
Agent 的出现把这些过程都包进了系统中:Agent 会自行规划、调用工具、管理上下文。核心在于模型具备了更强的记忆和上下文管理能力,把过去由人维持的短期、中期、长期记忆和状态切换能力转移到 Agent 内部。
因此,Agent 能够在一个循环中持续工作几十分钟甚至数天,并且始终知道自己做了什么、正在做什么、接下来要做什么,这体现了当前 Agent 技术栈的重大质变。
吴昊宇:这也与最近豆包手机爆火有关。豆包和努比亚联合推出的手机能够被 AI 直接操控,但随后微信、淘宝等平台禁止其登录。我体验了一会儿,确实很强,它已经不再是对话形态,而是能够根据你的指令在手机上逐步完成操作。
这意味着 AI 具备了任务规划和执行能力,在企业场景中同样重要。例如,当我们让 AI 判断某个话题的热度,它不能只是简单搜索并回答,而应该规划整套步骤,包括检索、汇集相关词和帖子、进行情绪聚类、生成报告等。与过去只做问答或简单文本分析完全不同,对规划与调度能力的要求显著提高。
其次,系统具备“动手”能力后,其权限与责任也随之扩大。AI 可以访问手机相册、聊天记录;在企业内部它可能访问工作软件、数据库。这意味着系统必须具备可追溯、可干预的能力,并设置明确的安全边界,否则行为将不可控。因此,在 Agent 架构中,我们加入大量监控、可验证机制以及人工闭环控制,这也是与过去 chatbot 模式最大的差异之一。
马可薇:目前的 Agent 经常“变笨”或“卡住”。从算力供给、数据供给、协议交互这三个环节看,目前的“短板”究竟在哪个环节?是推理速度太慢跟不上思考,还是上下文记忆太短限制了逻辑?
鲁琲:更准确地说,是高性价比算力的短缺。从实际落地的 Agent 来看,问题往往不在于是否有算力,而在于成本与效果之间的权衡。很多应用场景并不会使用旗舰模型,而是选择 30B 甚至 7B 这样更小的模型。尽管这些模型可能支持 100K 甚至 200K 的上下文窗口,实际使用时仍会将上下文限制在 32K 或更小的范围内,本质上是为了降低成本。同样地,我们也会限制 Agent 深度思考的轮次,比如在 Cursor 中开启 Max 模式、使用最好的模型让它生成一个 feature,执行二十分钟就能耗尽当月配额。如果未来有更多高性价比算力可用,现有的顶尖模型与算法才能在更广泛的场景中充分发挥能力。
吴昊宇:上下文的数据质量同样极为重要。即便上下文很长,如果信息质量低、噪声多,模型输出的任务规划和结果仍然不会理想。像我们做舆情分析时,常用的是小红书、微博等平台的帖子,但这类信息密度普遍较低。如果直接把一万条帖子全部丢给大模型做总结,得到的观点和事实要么不完整,要么存在偏差。因此,我们通常会对数据进行预处理,再交给模型生成总结或报告。
此外,Agent 的上下文往往来自先前多轮的交互,其中有些信息有用,有些只是无效尝试。现在虽然已有上下文压缩技术,但大多是被动的:在快达到窗口上限时才进行压缩。实际上我们需要更频繁地压缩,使保留下来的信息密度更高、更加真实可靠,从而提升 Agent 的规划能力。因此,要让 Agent 运行得更好,必须提供可信、高密度、高质量的数据。
王云峰:随着模型变得更强、上下文窗口更大,真正决定 Agent 效果的往往不是模型,而是企业内部的私有数据质量。模型是可以选择的,不行就换更好的,或者通过微调、蒸馏改善效果;但数据预处理的难度远大于选模型或微调模型。我们必须承认,未经处理的数据是完全无法使用的,而高质量数据的构建难度非常高。
尽管上下文窗口越来越大,如果输入内容过长,模型产生错误的概率仍然会上升。例如在一些需要了解用户需求的场景中,一万篇内容远不足以形成合理判断,合理的采样量级应该是十万甚至上百万篇。但当数据量达到百万级别时,直接输入模型的结果几乎不可用。并且随着处理链路变长,哪怕每个环节的可用性有 90%,经过十个环节后整体可用性也会下降到不可接受的水平。
一个 Agent 的完成需要多个环节、多个模块共同协作。大脑只是其中一个模块,还需要大量数据,而这些数据既包括企业私有数据,也包括金融、法律、隐私保护等方面的专业信息。未来每一种能力或模块都可能由不同厂商提供,例如大模型由一批厂商专注提供,让“智能大脑”越来越强,而数据提供方则确保数据真实可靠、信息密度高,还有一些数据来自实时感知。
在这样多方协作的体系中,协议的重要性就凸显出来了。没有任何一家厂商能够完成所有工作,生态必然需要众多参与者。如果每次调用外部数据或工具都要重新适配,将极大降低效率。因此协议的价值在于让生态中的每个角色,提供大脑、数据、工具或执行能力的厂商,都能使用同一种语言沟通,使大家可以把精力集中在自身专业领域,而无需耗费大量时间做适配工作。
马可薇:如果未来是多 Agent 协作的世界,Agent 之间沟通需要标准。王总在推 MCP (Model Context Protocol),鲁总和吴总怎么看?2026 年,Agent 的互联协议会走向开源统一,还是大厂割据?
鲁琲:未来必然是多 Agent 协作的世界,而且 Agent 之间的关系将远比今天复杂,会呈现多对多、开放式的交互。因此,统一的 Agent 交互协议显得格外重要。我个人坚信协议最终会走向开源统一,走向中立、开放、自主的状态,而且速度很可能会非常快。
我们可以回顾互联网发展史。例如最初 TCP/IP 协议与 OCI 竞争了十多年,最终 TCP/IP 被交由 IETF 维护,形成中立治理。期间,硬件厂商和软件开发者都面临需要同时适配两套协议的困境。HTTP 也经历了类似的过程,花了很长时间才走向开源和自治。而更近代的协议如 Kubernetes、gRPC,大约两三年就进入中立治理阶段。MCP 也是如此,我记得就在最近,Anthropic 刚刚把 MCP 协议捐赠给 AIF,而 OpenAI、Google、微软都是其成员,MCP 从首次发布到现在不过一年左右。
在当前的技术环境下,各大厂商都充分认识到:拥抱开源、共同建设生态、避免协议战争,才能为开发者和企业提供稳定预期,让大家可以放心基于 MCP 生态构建系统,而不必担心被某个厂商锁定。
吴昊宇:各大厂对 MCP 的支持力度非常大,尽管它诞生仅一年,但已展现出强大的优势,几乎所有厂商都已接入,基本成为多 Agent 沟通的事实标准。此外,Anthropic 在 MCP 之上也推出了许多新玩法。例如标准的 MCP 需要逐次调用并等待回复,而 Anthropic 最近的 PDC 协议则通过代码方式将多次 MCP 调用合并为一次。我们的测试结果,与 Anthropic 的官方结论一致:这种方式可使上下文长度缩短 80% 甚至更多。
因此,即便底层协议统一,上层生态仍会不断创新,尤其在大模型时代,可能出现许多此前从未见过的新协议和新生态。如果底层协议稳定可靠,上层生态的创新空间就更大。对于做应用的厂商而言,基于协议探索新的能力和玩法,不仅是机会,也能帮助我们更好地服务企业与用户。
围绕 Agent 架构层层解剖
马可薇:鲁总,企业落地 Agent 最大的拦路虎往往是成本。Agent 的运行模式决定了它需要维护极长的上下文,这对显存和带宽的消耗是巨大的。在大装置层面,你们有没有针对 Agent 这种“长程推理任务”的专用优化方案?
鲁琲:随着 Agent 单任务运行时长不断延长,上下文会出现明显的膨胀,这不仅影响性能,也显著增加成本。为解决长程推理中的上下文问题,目前有多种方法。最基础的是上下文压缩,包括摘要、结构化压缩等;另一类是长期记忆的持久化,即将高价值、高信息量的内容保存在外部存储,如 Vector DB 或知识图谱,以实现高价值信息在跨 Session 之间的传递。这些都属于“上下文工程”的范畴,本质上都是提升信息密度的有效手段。
此外,我们也会对 KV Cache 做优化。例如利用 CPU 内存甚至 SSD 进行分层存储,以提升系统吞吐量;同时可对 KV Cache 进行不同层级的量化。不过,这类方案都会带来精度损失,因为 GPU 中存储的 KV Cache 不是完整版本,在进行前段推理时难免丢失部分信息。根据我们的测试,精度损失大约在 1% 到 10% 之间,具体取决于缓存和同步策略。不同的业务对精度的要求不同,可以选择相应的优化方案,以支持长程、高效、高吞吐的推理过程。
马可薇:王总,作为买单方,如果商汤告诉您“降低一点精度能便宜 50%”,但在导购推荐时可能会偶尔算错价格,值得买的业务容忍度在哪里?
王云峰:每个业务都由多种组件组成,其中一些适合使用 AI 解决,另一些则并不适合。举例来说,若某项能力精度下降 50%,但成本降低 50%,如果这意味着价格计算可能出现错误,那这种情况在业务上往往是无法接受的。相反,有些任务则完全没有必要依赖大模型解决。例如常被讨论的“3.9 和 3.11 到底谁大”的梗,在实际业务中这种计算完全可以由传统方法处理,不必依赖大模型。因此,成本与精度的权衡必须与业务深度结合。我们内部使用了大量模型以及外部 API,不同参数规模、不同价格的模型都会用,关键是把合适的模型放在合适的任务中。
在一些高容忍度的业务场景中,前期并不需要极高精度,因为在海量数据下,整体系统的容错能力非常强。例如舆情分析,其统计特性使得局部精度的误差并不会带来实质影响。但在某些场景下,一点错误也不允许,因此对精度的要求极高。企业必须结合自身特点和业务需求:若天然容错度高,可以使用低成本、精度略低的模型;如容错度低,则必须使用更高精度的方案。最终企业要算整体成本,使整体投入与产出合理。
马可薇:Agent 需要外挂知识库。现在模型窗口越来越大,很多人说直接把书扔进去就行。但对于需要“精准执行”的 Agent 来说,知识图谱(KG)的结构化优势是否比长文本(Long Context)更适合作为 Agent 的“长期记忆”?为什么?
吴昊宇:知识图谱天然具备知识压缩、事实边界与操作约束等特性,因为它由企业大量事实性文档中高频出现的关系和约束构成,再经过专家校验,因此其中存储的内容本质上是企业知识的高度浓缩。当我们以结构化方式将这些浓缩知识提供给大模型时,其约束和提示效果远强于输入冗长且价值不高的文本。其次,知识图谱具有持久性,可以长期存储在图谱库中,根据上下文需求进行调取。在长期记忆方面,它比一次性塞入的大段文本更加稳定、有效。
企业知识库常用的 RAG,本质上还是长文本检索,但它有几个明显问题。第一,由于依赖相关性检索,若关键知识被埋在长文本内部,整体相似度反而可能不如一些不太相关的文本片段,导致真正有用的内容无法被检索到。第二,因为受限于上下文窗口的长度,我们不可能把检索到的 10 段文本全部输入,通常要经过人工筛选或重排序,但这会带来信息覆盖不全面的问题。
相较之下,知识图谱更能保证信息的完整与高度相关。查询一个实体时,其所有相关内容都能被提取,再进行过滤后输入模型,得到的上下文质量显著高于 RAG。此外,我们在许多 deep search 场景中测试,基于知识图谱的 Agent 表现也比 RAG 更优,且生成所需的上下文更短、效率更高。
王云峰:人在处理复杂任务时,最近的记忆细节更丰富,但远期记忆往往只保留关键内容。这种机制其实与知识图谱很相似,都强调保留高价值的信息、过滤无用细节。
在企业中,数据对结果的影响往往大于模型本身。我们常常要面对大量原始数据,其中不少未经结构化处理,也缺乏版本管理。有时同一知识点已被更新,但旧数据无人维护却仍然被输入模型,导致混乱。因此,大量预处理工作十分必要,而知识图谱就是一种极具代表性的结构化方式。它能提升信息密度、利用率,并且便于模型调用。
鲁琲:我们主要用图谱来支持 Agent 的长期记忆,并且让 Agent 能进行一定程度的自我进化。知识图谱是结构化数据,非常符合人类记忆模式,很多事件的细节会随时间遗忘,但关键步骤和方法会被保留,而下一次遇到类似任务时,人会依赖这些高层经验更快解决问题。
我们的一些 Agent 负责线上集群运维,例如 debug 真实故障。最开始它们可能需要反复试错、循环许多轮才能找到解决路径。成功经验随后会写入知识图谱作为长期记忆,并经过一定的反思。当再次遇到类似问题时,Agent 会优先检索图谱,看之前是否成功处理过,从而复用最佳方案。我们看到相同任务从需要 20 分钟逐渐缩短到仅需 5 分钟,这就是长期记忆带来的效率跃迁。
马可薇:鲁总,从算力角度看,是“暴力增加上下文长度”(让模型自己找)更划算,还是“外挂一个知识图谱检索”更划算?
鲁琲:把整本书塞进 context window 与从知识图谱中精准取回高信息密度的节点,两者的算力差距是成百上千倍的,这个账非常好算。
王云峰:千万别动不动就扔长文本。
鲁琲:许多模型在长文本中间部分存在遗忘问题,大海捞针本身就是不现实的任务。尽管大家都宣称拥有超长 context window,但真正有效的部分其实没有那么多。
王云峰:以前没别的办法,大家只能塞文本。现在如果还在往里扔长文本,某种意义上是在“为难模型”,甚至是在刻意找模型的短板。既然有更高效的方式,就应该让模型发挥长处,而不是持续增加它的负担。
观众:企业想要 AI,但不知道如何落地以及不确定投入产出,该从哪一些维度去做决策?
鲁琲:对于具有长期性质的 AI 落地项目而言,大家此时关注的并不是投入产出比,而是项目是否真正能做成。以行业中常见的视角来看,目前能够实实在在为企业赋能的,是那些已经被大规模使用的 AI 应用,比如 AI Coding。现在大型厂商,如微软和谷歌,从去年开始就强制要求员工使用 AI 生成一定比例的代码。如果大厂都在推行这种工作流程,那么企业跟进后带来的效率提升几乎是确定的,性价比也是正向的。至于那些更长期的项目,我认为干脆不必谈性价比,能真正落地就已经非常不错了。
王云峰:AI 的价值主要体现在两个方面:一是提效,也就是原本由人完成的工作转由 AI 处理,并且效率更高;二是 enable something,即让过去在没有 AI 时无法实现的事情变得可能。关于提效,当前 AI 在许多场景中基本可以达到初级到中级人员的能力水平。
如果某项工作具有较高频次、规则性强、同时容错率允许,那么交给 AI 来做效率往往显著更高。而在一些强调创意性的工作中,AI 也表现突出。至少从我们观察到的发展历程看,AI 最初被大量应用的就是创意类任务,比如生成视觉作品,这类任务中 AI 的多样性优势非常明显。
相比之下,编程反而比早期的绘图类任务更晚成熟,因为编程对结果准确性要求更高。不过编程也有其优势:程序本身规律性强、历史代码库丰富,因此模型能够较快适应。相反,对于那些既要求极高准确性,又缺乏明显规律性的任务,AI 目前仍难以胜任。
现在前两类任务 AI 已经能处理得比较好。但如果我们追求 enable something,即实现过去无法做到的事,那么此时无需过多考虑成本,只要在可承受范围内即可。因为一旦能开拓出全新的领域,其性价比可以说是无限大。
吴昊宇:第一个问题是:业务方能否明确说明 AI 的衡量标准?也就是效果好坏需要有客观评估,而不是凭拍脑袋判断。第二个问题是:业务方是否掌握数据?如果没有数据,只能完全依赖大模型从零推断,往往难以取得理想结果;但如果业务方有数据,可以用于提示或微调,AI 的效果通常会更好。还有一点是业务方是否有预算。不能既不给资源又要求结果。如果同学们正在推进类似项目,可以用这几条先和业务方对照一下:他们想实现什么目标?希望达到什么效果?是否有数据积累?如果完全一无所有,或许换个方向会更合适。
马可薇:王总,您之前的分享提到了 MCP Server。在实战中,让通用大模型通过 MCP 协议去调用值得买复杂的电商接口(查价、领券),最难解决的“协议对齐”问题是什么? 如何防止 Agent 因为“误解”协议参数而乱操作?
王云峰:真正最难的不是协议对齐,而是业务对齐。起初确实会遇到一些协议层面的参数不一致等问题,但从技术角度看,这些都是可解的。有时通过调整模型,或者增加一轮反思,理解用户意图后,再结合传统方法与模型能力,大多能解决协议层面的对齐。真正困难的是业务层面的对齐。虽然协议提供了共同语言,但即便使用同一种语言,相同的词在不同语境下表达的含义也不同。比如“好”或“优惠”等词,在不同业务场景中有不同的业务语义。因此,我们在实践中踩过的坑,往往集中在如何与合作伙伴在业务理解上达成一致。
接下来要考虑的是,这种业务预期是否应该由我们现有接口提供,还是需要新增接口。同时,我们的合作伙伴数量众多,他们各自有自己的设计与呈现方式,而我们需要保持服务的相对标准化,不可能为每家都做定制化。因此真正的难点是业务模型与技术模型如何统一、如何对齐。纯技术层面的参数对齐反而是最不需要担心的,毕竟大家都是写程序的。
吴昊宇:这让我想到 text-to-SQL 的场景。老板问问题时从不会按照模型需要的方式来问,他只会说:“今年业绩怎么样?”这背后对应的是一大堆图表。
马可薇:是的,仍然需要把自然语言或老板的需求转化成机器能理解的表达方式。
王云峰:大模型带来的真正挑战,对技术人员来说,是角色要求的变化。以前很多专业难题需要技术人员凭专业能力解决,现在模型提高了效率,也补足了短板。但这同时带来一个误区,让一些人认为 AI 无所不能,把它当作许愿池。真正的挑战是我们这些技术人员是否能向前迈一步,不仅掌握技术,还要理解业务需求,理解业务语言。大模型虽能理解自然语言,但不一定理解业务语言。
吴昊宇:业务语言需要大量“翻译”。
王云峰:这也是未来 AI 普及后,对程序员、工程师和架构师的真正挑战。
鲁琲:随着 Agent 能力增强,我们常举例,现在让一个 Agent 做图表,工程师能轻松实现。但如果未来企业内部有大量 Agent 参与工作,你告诉 Agent 说:“我给你设一个目标:明年一季度增长 25%。”它该如何实现?这种业务语言的对齐确实很难。
马可薇:吴总,在处理政企复杂流程时,您觉得这种“调度逻辑”是应该写死在代码里(SOP),还是应该让大模型自己去“动态规划”?
吴昊宇:两种方式以及中间状态都可能需要。在要求特别高的领域,例如大型企业,或者老板偏好确定性结果的场景,可以使用 SOP 的方式写死,或采用 workflow 方法,确保可用性和正确性。
在更动态的场景下,可以充分发挥模型能力,比如调研、动态执行等场景。我们现在常用 Claude Code 的 skill 机制,通过约束把技能中的核心流程固定下来,而外围处理交由模型自主完成。这样既有 SOP,又能保留灵活性。
举个例子:我们的一位 HR 想做员工能力评估模型,他给了我们一份咨询报告,希望提炼成能力模型。我们使用“提炼技能”的能力,把文档总结成一个能力模型技能,再将员工的邮件、绩效记录及其他非结构化数据输入,模型就能按技能中的 SOP 自动总结。这样 HR 在几分钟内就获得了一个强大的技能。这个方式能很好地平衡 SOP 与灵活性。在舆情分析等场景也是类似,不同分析师的数据来源和路径不同,但分析框架是一致的,而技能机制可保持这种一致性与灵活性。
马可薇:那现在主流是两种方式混合使用,还是更倾向代码写死或模型动态规划?
吴昊宇:仍然取决于具体场景。如果业务方要求严格,那我们会采用 workflow 的方式处理,虽然现在基本不再直接写代码。
观众:可信 Agent 目前是主要靠 RAG 和知识图谱吗?有没有其他方式?
王云峰:我认为目前如果完全依赖模型,幻觉问题在一些场景下是不可避免的。根据已有研究,在加入 RAG 后,幻觉可以被有效抑制,虽然无法降到零,但确实是目前较好的解决方案。不过,幻觉问题目前没有 100% 彻底解决的办法。如果业务场景要求完全无幻觉,仍需要依靠额外的外围机制或校验流程来确保结果的可靠性,而这也取决于具体的应用场景。
马可薇:当成千上万个 Agent 同时跑起来,这就不是单卡训练的问题了。鲁总,面对这种碎片化推理请求,异构集群(国产 / 英伟达混用)怎么保证调度不卡顿?
鲁琲:调度本质上是推理过程,调度算法需要实时感知推理节点的负载情况,再进行 workload 分发。在同构集群中,判断节点负载已相当复杂,需要综合考虑 GPU 利用率、队列长度、内存占用、以及新任务可能生成的 Token 数等因素;而在异构集群中,这些问题会被进一步放大。同一请求落在不同类型的节点(如国产芯片与英伟达芯片)时,其真实计算消耗往往不同,原因包括算子优化差异、内存访问模式差异、精度差异,甚至节点之间通信方式(NVLink 或 RoCE)的差别。不同设备之间很难完全对齐,因此在实际落地中通常会根据不同卡的压测结果,调整负载评估逻辑并设置不同的权重。
最终通常采用多种调度策略组合,根据不同 workload 的 SLA 要求进行分配。例如,对响应速度要求极高的请求,会优先调度到性能强、负载低的节点;对要求较低的请求,用来做整体负载均衡;而离线推理或批处理任务,会被安排到功耗更低、速度相对慢的设备上。这样可以在保证高 SLA 请求优先满足的同时,让低 SLA 请求提高集群整体利用率,从而形成一套兼顾性能与性价比的组合式调度策略。
马可薇:吴总,在算法层面,如何设计调度策略,是优先保 Agent 的响应速度,还是保系统的整体吞吐量?
吴昊宇:在我们大规模的 Agent 集群中,更关注的是调度链路是否稳定。因为 Agent 的执行过程通常包含规划、工具调用、反思等多轮循环,实际的性能瓶颈往往不在 GPU 或大模型本身,而是在外部异步任务或外部调用时产生大量耗时。因此,我们优化的重点是确保 Agent 能顺畅执行。
这些 Agent 也有不同类型:部分用于实时交互,部分处理异步任务,还有部分负责大批量任务,如处理海量帖子或抓取网页。调度策略必须确保实时交互不卡顿,同时离线任务能充分利用外部资源。我们采用多 Agent、多模型尺寸的结构,让简单任务使用成本较低的小模型,复杂任务使用更强但更耗资源的大模型。通过这种组合优化,可以提升整体并发数,并保持较低时延。
马可薇:王总,在电商导购场景,延迟的“生死线”是多少毫秒?超过多少毫秒用户就会关闭页面?”
王云峰:在 C 端场景中,尤其是对话类场景,1 秒内若不能输出首 token,体验基本就失败了。虽然大家对大模型的容忍度比传统应用高,因为用户已经习惯稍等片刻再看到结果,但总体上仍需在 1–2 秒内给出首 token,并保持持续输出。对于简单问答类场景,几秒内完成输出较为理想;若是深度思考类任务,用户还能接受更长的等待时间。而对离线处理来说,关注的重点变成吞吐量,时延并不那么关键,因此调度策略会根据不同任务类型采取不同侧重。
马可薇:企业用 Agent 最怕它“死循环”或“胡说八道”。在你们的架构中,哪里是那个“红色按钮”(熔断机制)?在应用层,MCP Server 有没有设计业务逻辑上的“熔断机制”?在基础设施层,有没有资源消耗上的“硬熔断”?
王云峰:一般来说,我们会设置一个循环阈值,超过后即可认定系统已出现崩溃,这是最基础的做法。对于对外提供的 MCP Server,由于全部是预处理好的数据,因此通常不会出现死循环的问题,但我们会对吞吐做一定的熔断和限制。整体机制与传统系统中的熔断并无本质区别。
鲁琲:我们的熔断机制更多是在技术架构层面,在基础设施层面通常会为每个 Agent 分配独立的 API key,并对各 API key 设置 rate limit 和预算上限。即使 Agent 进入死循环,在 Token 消耗超限后也能被限制住。MCP Server 也是类似逻辑:为了防止 Agent 死循环,需要在 API 层面设置 rate limit。整个系统的构建都基于“互相不完全信任”,因此必须做各种层次的防御。
吴昊宇:我们的 Agent 基础设施,主要通过沙盒机制实现隔离。Agent 的执行环境运行在独立的虚拟机中,即使出现循环、资源耗尽或挂掉的情况,也不会影响外部的主控系统。其次,我们会监控 Agent 的执行状态,包括是否循环、资源占用是否异常、是否频繁发送请求等,并通过网络、硬盘、CPU、内存等维度进行监控。如果判断运行异常,会在外部直接将其 kill 掉。
此外,在 Agent 执行过程中,人工可以随时中断其运行,通过外部协作判断 Agent 是否正常。面向企业场景时,我们还需对模型及其任务规划、执行模型进行调整,确保规划路径和执行动作符合可信标准,避免生成过于离谱的操作,并在执行中加入必要的安全检查,防止触发高危操作。
展望 Agent 的未来形态
马可薇:如果 Agent 成为主流,未来的软件(ERP/CRM)会不会消失,只剩下 API?作为技术人,我们现在是应该去学“怎么写 Agent”,还是去学“怎么写被 Agent 调用的 API”?
鲁琲:我相信在非常长远的未来,软件形态本身会消失。但在这一未来到来之前,在相当长的一段时间里,软件的核心功能仍将被保留,而其中与人交互的部分会逐渐淡出,由类似 Agent 的交互模式取而代之。在这种模式下,Agent 事实上承担了软件外壳的作用。软件的核心功能会以 API 的形式暴露给 Agent。
对初级开发者而言,仍需通过扎实学习掌握复杂的后端 API 开发和业务核心功能,并逐渐形成对系统架构和高并发系统的深入理解。而对中高级开发者来说,在具备 API 层面的深刻认知后,可以进一步尝试 Agent 的开发,更好地弥合 AI 应用与后端服务之间的 gap。我认为这类具备双向能力的人,未来会在市场上变得非常稀缺。
吴昊宇:未来可能真的不再存在传统意义上的软件界面,UI 可能完全消失,取而代之的是由 Agent 与系统直接交互。当然,软件本身仍可能以 API 形式存在,因为构建完整系统仍需专业软件厂商去完成,只是 UI 不再由人直接使用,而由 Agent 处理。企业内部甚至可能形成一个“超级 Agent”,管理几乎所有业务流程。
基于此,即便技术人员没有从事 Agent 开发,我仍建议大家理解 Agent 的工作原理,包括它如何运作、如何被调度、运行基础是什么,以及 Agent 之间如何交互。至于 API 的学习需求,则取决于各自的工作方向。面对高并发场景或后端基础能力的建设,相关技能依旧必不可少。幸运的是,现在比过去有了更好的学习条件,AI 能帮助理解架构、编写代码和传授经验,对技术人员而言是非常好的时代。
王云峰:Agent 之所以强大,是因为它站在“巨人”的肩膀上,而这些巨人就是历史上无数程序员一行行写出的代码。二十五年前,会写 HTML 都是非常重要的技能,写页面的人收入甚至比写 C++ 编译器的人还高;但市场很快变化了,因为这些技能极易被新工具替代。
现阶段,会使用 AI、会搭建一个 Agent 是一种偏表层的能力,而更核心的依然是对计算机整体运行机制的理解。我不知道量子计算机何时普及,但至少目前 Agent 的上层表现再“神奇”,底层仍是基于最基本的数学和计算机原理,在冯·诺依曼体系结构上运行。因此,如果希望避免被时代淘汰,就必须知其然并知其所以然。
很多依赖记忆或机械性劳动的工作未来会被 Agent 覆盖,但真正理解底层原理的能力,才能帮助我们把握 AI 的能力边界,识别它的长板与短板,并更有效地利用它。因此,计算机最基础的知识永远有价值。你可能不会显式意识到自己在使用这些知识,但它们形成的思维习惯与直觉,会成为你使用 AI 能力的重要底层支撑。
马可薇:在 Agent Infrastructure(基建)领域,2026 年最可能爆发的一个技术变量是什么?
鲁琲:我认为未来应当形成多 Agent 的治理体系。2025 年 Agent 的发展非常迅速,从早期的 demo 已经逐渐落地到生产环境,并出现了许多现象级的 ToC 应用,如 Manus。到 2026 年,我相信 Agent 将被更多企业级应用采用,逐步成为企业运行基础设施的重要组成部分。
生产级的多 Agent 落地很可能在 2026 年大规模发生。从技术角度看,多 Agent 之间的交互协议基础已经初步具备。然而,单 Agent 的运维、调试、性能监控与迭代本身就极为复杂;当系统扩展到多 Agent 后,这些复杂性将呈指数增长,多 Agent 的交互逻辑会隐藏大量潜在问题,一个 Agent 的异常输出可能污染整个系统的上下文,甚至导致系统性失败。因此,构建完善的多 Agent 治理体系,是企业级落地的必要前提。
吴昊宇:Agent 体系确实是非常重要的发展方向。目前常见的 Claude Code 以及我们公司自研的一些 Agent 框架,实际上都在探索多 Agent,只是距离成熟还很远。我们关注的核心问题是:如何让企业敢在真实生产环境中使用 Agent?关键在于让 Agent 的产出结果具备可信性。
我们主要从两个层面提升可信性。第一是数据可信,即数据源是否真实、有效,并通过知识图谱等方式增强上下文的可靠性,避免 Agent 在执行过程中偏离核心语义。第二是模型输出可信,即从任务规划到任务执行的整个链路都要可控、可靠,确保规划合理、执行安全,不产生危险操作,并能准确落实意图。
王云峰:从技术层面看,不确定性仍然很多,算法和算力的发展方向也未必有明确答案。但我认为最关键、也最希望发生的事情并不在技术本身,而在市场端:希望在 2026 年,市场对 Agent 的认可度能够显著提高。
AI 是一种彻底的颠覆性技术,与以往技术不同,它在很多方面甚至需要整个市场被重新教育。在人们没有形成足够理解之前,很难发挥其全部能力。尤其在企业场景下,对安全性、数据与结果准确性都有更高要求。如果仍停留在“要么把它当万能许愿池,要么认为一无是处”的极端认知,那 Agent 很难发挥作用。
我们期望有越来越多的用户和企业找到适合自身业务的 Agent 使用方式,发挥其长板、规避其短板,使 Agent 真正为业务创造价值。今年我们一直在讲“Agent 元年”,而一个行业之所以能持续有人投入研究与建设,最终仍需要在市场中产生真实成效。
本文来自微信公众号“InfoQ”(ID:infoqchina),作者:李忠良,编辑:宇琪 ,36氪经授权发布。