首页文章详情

MaaS竞争更激烈,火山引擎的份额为什么还在涨?

晓曦2026-05-08 12:13
AI云飞轮,开始转起来了。

文|苏天明

中国MaaS(模型即服务)市场正在迅速扩大,从一个非常小且狭隘的市场,变成充满潜力的业务增长点。

市场调研机构IDC最新数据显示,2025年中国企业级MaaS市场大模型调用量同比增长16倍,达1941万亿Token,并预计2026年增速更快。

2025年,尤其是下半年,中国的云计算厂商、大模型公司几乎悉数入场,投入更多算力、销售和产品资源,提高MaaS业务优先级,竞争愈发激烈。

按照常理,一个快速扩容的新兴市场,后来者集中入场后,领跑者的份额就越容易被稀释。尤其在MaaS这样的市场里,外界一度认为大模型API难以形成黏性:开发者似乎只需要改几行代码,就能换掉底层模型或更换云平台。

但IDC最新数据给出了一个反直觉的结果:2025年,火山引擎在中国MaaS市场的份额非常稳固,从上半年的49.2%进一步提升至全年的49.5%。

也就是说,在竞争最激烈的下半年,火山引擎不仅没有被后来者摊薄,反而随着市场扩容继续扩大了领先优势。中国公有云上每产生两个大模型Token,就有接近一个跑在火山引擎上。

外界习惯于将其归因于激进的定价策略。2024年5月,火山引擎发布豆包大模型MaaS服务时,曾把价格降至较行业通用水平低99.3%。但单纯的补贴无法解释火山引擎份额的持续扩张。行业内其他厂商很快也把MaaS服务价格压低到类似水平。真正决定低价能否持续的,是调用规模和推理工程能力。

模型能力同样关键。MaaS市场快速扩容,主要来自模型能力提升后,新场景不断打开:模型编程能力提升推动Vibe Coding和Agent走热,视频生成模型进入短剧、漫剧和广告制作生产流程,持续放大Token消耗。

这意味着,MaaS更偏向增量市场中的速度竞争。谁能更快把模型能力产品化,提供具有性价比的稳定服务,谁就能更快承接新增场景,并在市场扩容中继续扩大份额。

从豆包大语言模型到Seedance视频生成模型等,豆包系列模型能力不断迭代。火山引擎则在此基础上,加速把过去积累的Token规模,转化为更完整的竞争力:更低的推理成本、更高的工程效率,以及围绕Agent运行所需的基础设施。一个大模型时代的云计算飞轮,正在成型。

01 低价背后,是规模和工程能力

云计算是典型的高固定成本、低边际成本行业。服务器、网络、研发和运维体系都需要前期大量投入,但每新增一次调用的边际成本会下降。规模越大,研发和基础设施投入越容易被摊薄。

规模也会放大工程优化的价值。火山引擎总裁谭待曾举过一个例子:“1万台服务器利用率优化一个点,和100万台服务器优化一个点,收益差100倍。可以组建强大的团队做得更好。”

规模是火山引擎重点发力MaaS时最看重的变量:不是简单卖模型接口,而是尽快把Token调用量做大。

为此,火山引擎把Token消耗量作为业务发展的核心指标,并调整销售团队的业绩考核方式:同样销售额的MaaS产品,在内部考核中的激励权重,是传统云服务的数倍。

与业务优先级一起提升的,还有火山引擎在模型推理方向的技术投入。MaaS的成本主要看Token的生成效率。服务器利用率、缓存命中率、算力调度效率提升,成本就有机会下降。

“更低的成本能催生更多应用,可以把盘子做大。”谭待后来谈起当时的定价策略时说,看到“能靠技术把成本降下来,就决定一次降彻底”。

当时支撑火山引擎降价的关键技术,主要是其较早大规模应用的PD分离和KV Cache。PD分离,是把大模型推理中的“理解问题”(Prefill)和“生成答案”(Decode)拆开,分别匹配更合适的算力单元;KV Cache则是缓存模型生成过程中的历史状态,避免每输出新内容都重复计算此前上下文,从而节省显存带宽和推理成本。

但这些技术都依赖规模。小规模调用时,维护复杂缓存和调度系统本身也有成本,甚至可能抵消节省下来的算力。

随着PD分离、KV Cache等技术在行业中扩散,行业内的Token价格逐渐趋同。缺乏规模效应的跟随者,对标低价往往意味着更大的成本压力,甚至会产生亏损。

调用规模更大的火山引擎,成本压力更小,会有更多空间继续优化推理技术,形成可持续的低价能力。

火山引擎也在技术和工程之外寻找降低成本的空间:一方面,根据Context长度区间做差异化定价,把选择权交给客户;另一方面,推出“节省计划”,把客户在语言模型、视频生成等不同模型上的用量合并计算。客户在语言模型上积累的规模折扣,可以用来对冲视频生成等新业务的试错成本。

IDC最新中国MaaS报告提到,火山引擎拥有最高的市场份额,也就是调用量份额;其收入份额同样排名第一,但比调用量份额低几个百分点。火山引擎每个Token的单价低于行业均值。

需要注意的是,IDC对中国MaaS市场的统计,主要覆盖公有云上企业调用模型的情况,不包括字节跳动开发的豆包、即梦等AI应用,也不包括抖音、飞书等内部业务部署大模型时产生的Token。

这些调用量不进入IDC的市场份额统计,但是同样会影响火山引擎的成本结构和工程效率。

02 Agent让MaaS变成了基础设施生意

OpenAI CEO山姆·阿尔特曼近期在访谈中说,AI的下一阶段,将从“用户提供一段文本、大模型返回一段文本或代码”,转向“Agent真正运行在公司内部,完成各种不同类型的工作”。他说,OpenAI还在与AWS合作开发一款类似“虚拟同事”的产品。

MaaS正在从标准化的供应模型接口,变成企业的基础设施,黏性更强。一个企业Agent真正运行起来,需要身份认证、权限控制、记忆系统、工具调用、沙箱环境、日志记录、安全治理等组件,以及与企业内部系统的连接。

这也是最近大模型行业开始重视Agent Harness的核心原因。所谓Harness,原意是“马具”或“套具”。放在Agent语境里,指的是与基础模型配合的工程系统。MaaS供应稳定的模型能力,Harness负责把推理变成可约束、可追踪、可持续运行的工作流。

云平台提供大模型服务的方式跟着发生变化。不论是Anthropic和多家云厂商的合作,还是今年4月OpenAI与AWS的合作,不只是简单地把模型接口放到云平台上,还会把它封装进云平台的原生Agent环境中,让企业能够在云平台环境里开发、运营生产级Agent。

火山引擎过去几年的产品演进,也可以放在这个趋势里理解:提升MaaS竞争力的同时,把大模型服务扩展成覆盖开发和运营Agent的基础设施。

“我们是国内第一个推出全套Agent产品,把Agent开发简化的。”谭待去年底接受访谈说,客户写几行代码,就能做出来一个复杂的Agent,“就跟你以前开发一个复杂的网站一样”,只是现在需要新的AI中间件。

在他的判断中,以前写代码本质上是在写if-else定义工作流;现在基于模型开发Agent,开发者更多是在写提示词,流程规划、任务拆解、创建子Agent等环节,则越来越多交给模型自己完成。这也是OpenClaw这类产品的底层工作逻辑。

所以火山引擎今年初能在支援央视春晚活动的同时,迅速推出OpenClaw产品ArkClaw,提升安全能力的同时,开源为Agent长期记忆设计的上下文数据库OpenViking等,让ArkClaw更好用。

他们把“ArkClaw个人版”定义为“敏态Agent”:先让员工快速实验提高业务效率的想法,再把验证有效的能力沉淀、固化成“稳态Agent”。后者对应的是火山引擎在2024年上线的Agent开发和运营平台HiAgent。

到今年4月,火山引擎上累计消耗万亿Tokens的企业,已经从去年底的100家,增长到了140家。越来越多的MaaS大客户,与火山引擎的合作变得更深入。

03 AI云飞轮,开始转起来了

在商业分析里,飞轮效应是解释全球最大云计算平台AWS成功的核心逻辑:规模摊薄成本,降价吸引更多客户,客户增长又带来更多反馈、现金流和更强的生态,推动技术和服务继续迭代。

火山引擎正在AI时代建立类似的飞轮。但它的飞轮并不完全遵循传统云计算行业的逻辑。传统云计算的飞轮,主要围绕算力、存储、网络和软件生态;MaaS的飞轮,则多了模型能力、Token使用方式、Agent场景和真实业务反馈。

火山引擎飞轮的第一层,是模型能力、调用规模和推理成本之间的循环。

字节跳动内部的模型研发团队Seed,稳定为火山引擎供应第一梯队模型。模型越强,越容易扩大调用规模;调用规模越大,越能用工程技术压低成本;成本下降后,又能吸引更多客户。这是一个接近传统云计算的规模飞轮,只是计量单位从服务器、存储和带宽,变成了Token。

第二层飞轮,来自真实场景的反馈。字节体系中,每天上亿人使用的豆包、迅速增长的即梦,以及抖音、飞书等数十个内部业务线,以及外部客户,都在通过火山引擎开发和使用大模型能力,会给火山引擎提供的高频、复杂、真实的产品反馈。

这些反馈一端流向Seed模型团队,帮助基础模型继续迭代;另一端流向火山引擎的Agent团队,帮助提升产品能力。

Agent产品尤其依赖这些反馈。Anthropic也在多篇技术文章中提到,Agent能力提升不是只靠模型能力提升。内部员工、外部用户、生产监控、A/B测试、用户研究和客户部署需求,共同推动了Claude Code等产品的迭代。

2025年,火山引擎在中国MaaS市场份额接近一半,只是其飞轮转起来后的阶段性结果。

现在Agent热潮继续推高市场需求,行业一度出现算力供不应求。一些公司选择涨价,优化短期财务表现。火山引擎表示不会跟进。

这种定价克制,来自火山引擎对行业阶段的判断:比起获得更高的短期利润,当前更重要的是扩大调用规模、降低使用门槛、增加真实场景,让飞轮继续加速。

正如谭待所言,AI云的竞争是一场马拉松,才刚刚跑完一公里,现在的份额并不代表终局,“比速度更重要的是加速度”。