首页文章详情

智象未来CEO梅涛:多模态模型Token的毛利率,远高于语言模型

王欣逸2026-05-28 16:20
在算力成本大幅下降之前,视频生成初创公司尽量不要在To C上和巨头公司打起来。

文|王欣逸 李嘉星

编辑|周鑫雨

一家Day 1就在做多模态大模型的公司,无法拒绝参与到具身智能和世界模型热潮之中。

2026年,随着Seedance 2.0、GPT Image 2.0等模型的爆火,多模态能力越来越成为行业内绕不开的关键词。5月19日,智象未来首届开放日上,智象未来给出了他们的判断和回答:“原生多模态是实现AGI的必经之路。”

本场开放日活动主题为“Imaging the World”,不过,对于智象未来而言,「World」的重要性,几乎要放在「Video」和「Image」之前了。

“我们的终极目标是打造世界模型。”智象未来CEO梅涛在活动中反复提及这一观点,在他的定义中,智象未来要做一家原生多模态大模型公司。

在梅涛看来,一个真正的世界模型需要同时满足多个条件:掌握物理规律、解决长时间跨度的因果推理、实现全模态交互以及绝对的安全性。

当下业界主流的世界模型训练路线可以分为李飞飞的“生成3D世界”一派,以及Yann LeCun的“自监督预测世界”一派。

智象未来则做出了不同的选择——做算法和架构层的创新,从世界模型训练中最稀缺、成本最高的多模态数据入手,率先聚焦在视频、图像、3D交互等数据的生成上,用低成本的合成数据对抗行业数据稀缺瓶颈,并从中积累一些在世界模型上可复用的视觉模型能力。

具体而言,他们要让多模态模型从构建之初就拥有理解真实世界规则的能力。原生全模态Unified Transformer(UiT)架构能做到“Any to Any”(任何形式输入支持任何形式输出),这也正是世界模型所需要的能力:在统一架构中理解、生成并预测现实世界的不同状态。

过去一段时间,他们做出了从“模型即产品”到“做Agent平台”的转变。

作为一家主要面向To B的公司,他们概括自己的打法是做一个“1+1+3”MaaS(软件即服务)平台,分别为底层的HiDream系列大模型、中间层的HiHarness企业服务平台,以及上层三大场景的应用:商业营销、影视创作、社媒创作。

概念火热的同时,资本也在不断押注。继上个月拿到安徽省产投、东方富海等机构参投的5亿人民币B轮融资之后,智象未来又火速官宣了下一轮融资,两周内再次完成亿元级新一轮融资。

一系列竞争也随之而来,当下的模型能力越来越强,在和海内外基模厂商争夺模型市场的同时,智象未来还要攥紧他们手中的新牌——MaaS平台,并瞄准视频生成领域的垂类赛道,开展和大公司的争夺战。

在智象未来开放日结束后,《智能涌现》等媒体和智象未来CEO梅涛,以及其投资人东方富海合伙人王兵聊了聊,以下为对话实录(略经摘编)。

很多具身智能公司低估了视频模型的重要性

问:在大家的认知当中,智象未来之前做图像和视频比较多,从二维的图像、视频,到三维的物理世界,你们的战略转型是怎么发生的?

梅涛:目前大家将市面上一些模型称之为世界模型还太早了。世界模型有不同的路径,未来可能也会有多种可能性。

到今天为止,我们不会去对外声明我们目前是一家世界模型公司,我们更倾向于将智象未来定义为原生多模态大模型公司

智向未来更关注原生的全模态大模型及其应用领域,不过,原生多模态大模型公司在将来肯定会通往世界模型。

问:现在很多公司都自称在做“世界模型”,但外界对这个概念的定义很模糊。您如何界定智象未来所追求的“世界模型”?

梅涛:我们会非常严谨地认为智象未来做的是原生多模态的模型,在迈向世界模型的过程中,会比较聚焦在视频、图像、3D交互这些数据的生成上。

问:智象未来从拼接式多模态升级为原生多模态,这在技术上出现了什么拐点?目前技术是否成熟?

梅涛: 多模态生成领域的技术尚未收敛,这正是创业公司的机会。如果技术完全收敛、统一采用DIT框架,我们也就没有空间了。

正因为技术没有快速收敛,我们才能通过算法创新,以少量资源实现与大厂同等的效果,而非单纯去拼数据与算力。

问:从全模态大模型到世界模型,需要还需要达成哪些成熟的技术条件?

梅涛:第一是掌握物理规律,包括流体力学、固体力学、分子动力学和牛顿定律等,目前行业还难以全面枚举和掌控;

第二是解决长上下文的因果关系问题;

第三是实现与物理世界的全模态交互,比如机器人怎么拿起杯子、拧开盖子、倒水并判断用户需求,这离我们还有相当长的距离;

第四是安全性,机器人如果进入家庭,必须保障百分之百的安全,避免对人身或贵重物品造成损害。

我们现阶段更务实的选择是关注原生多模态问题,既能实现商业化落地,也能为未来迈向世界模型做好技术积淀。

问:很多视频生成模型公司都在卷长视频、真实性,在迈向世界模型的过程中,这些指标会发生改变吗?

梅涛:世界模型强调的是生成世界的能力,包括逻辑关系、视觉效果等。

我们对自己的视频模型有三个维度的要求:

第一是模型能力,即视觉内容的合理性、质量,与物理规律的符合度,在模型能力上我们必须瞄准天花板来做;

第二是视频时长,我们目前能做到分钟级的生成,甚至在技术上可以做到3分钟、5分钟甚至无限长;

第三是实时性与交互能力,当模型花1分钟就能生成出1分钟时长的视频,那基本就可以实现交互了。我希望我们的产品可以朝这个方向努力,比如通过算法提供低质量的预览,用户确认后再输出高精度的2K或4K视频。

问:在训世界模型的过程中,数据是比较稀缺的资源。您认为世界模型的数据获取、清洗和标注策略,和之前训图像、视频模型相比有什么不同?

梅涛:模型训练过程包含三个要素:算法、数据和算力。

倘若算法框架固定下来,剩下的就是在比拼数据和算力了。举个例子,如果大家都在用DiT(Diffusion Transformer)架构做视频模型的话,数据的质量、分布以及数据标注的质量,对模型能力相当重要。

不过,一旦算法和架构发生了变化,或者出现了新的架构和新的算法,数据的重要性就会弱一点。这也是创业公司的机会所在——我们不完全拼算力和数据,而是关注算法本身的创新。

回到数据层面来看,为了获取高质量真实的数据和反馈,我们做了一套工具链条,用以收集、清洗和标注这些数据。

我们拥有20万小时有影视版权的视频数据,和不少厂商保持着合作关系,同时也正寻求和头部拥有版权数据的影视公司的合作。

世界模型的数据情况与视频模型有所不同,世界模型数采需要全方位多模态的数据,成本更高,且更为稀缺。因此,智象未来在做的是,将其他厂商采集到的毫米级真人实操数据,用视频模型生成万份级不同场景、肤色的真人数据,并用这些真实数据及机器合成数据训练VLA(Vision-Language-Action,视觉-语言-动作模型)和WAM(World Action Model,世界动作模型)。

问:用纯真实数据训模型,和用机器合成数据训模型,效果会有所不同吗?

梅涛:我们会进行小规模的验证,形成从数据到模型训练的闭环。具体来说,就是看用机器生成的数据对市面上普通的乃至最好的VLA和WAM模型有没有好处,反推去验证数据的有效性。

问:您曾提到,很多具身智能公司低估了视频模型的重要性。您为什么认为没有视频模型,具身智能很难走远?

梅涛: 现在具身智能公司的模型规模普遍很小(不到100B)。如果真要承担类似世界模型的复杂任务,靠小模型和有限的数据采集,不太可能实现广泛的泛化。

我们做的是全球唯三、能够达到千亿规模的多模态模型。如果没有一个坚实、厚重的底座模型,做具身智能很难实现很好的泛化,即便在特定场景里因为有数据采集能做一点,也很难扩展到其他场景。

多模态模型Token的毛利率,远远高于大语言模型

问:今年初,Sora的关停下架对国内视频领域的创业者产生了一定影响,这会影响投资人的投资决策吗?

王兵:不会, 因为这是OpenAI的战略。目前在Coding领域,OpenAI被Anthropic压得很厉害。在有限的资源和竞争之下,OpenAI可能自然把短期内难以赚钱的图像、视频模型的优先级放低了。

但从去年到今年,整个图像和视频模型行业的商业化进展非常快,比如可灵、Seedance 2.0等,在收入上表现是不错的。

不过,视频生成赛道真实存在的可能是版权问题,这也是我们选择投智象未来的重要原因,智象的所有的数据都是合法、有版权的。

在大模型特别烧钱的背景下,我们特别看中企业如何用最有效的方式和大公司进行差异化竞争。具体来说,一方面,企业怎样用较低的成本做出能力比肩头部大厂的基模,并做好研发效率和资金效率;另一方面,企业能利用先进技术,快速落地到不同的商业场景中,差异化做好B端场景服务。

问:视频模型真的能赚钱吗?

王兵:它一定会赚钱。

第一是算力成本一定会指数级下降,英伟达每年推出的芯片算力都是上一代的5-10倍,但价格几乎没有涨太多,因此算力的平均价格每年都在下降。

你今天看到不赚钱的项目,可能过两年就开始赚钱了,因为算力成本在不断下降。

第二是,过去几年,图像和视频的生成效果无法达到商业化的水准,但今年,我们可以看见包括AI短剧、短视频、电商视频的质量几乎都能实现商业化。在影视、广告等几乎所有视频领域应用场景中,AI一定会取代绝大部分的人工。

问:在视频生成行业做To B服务,毛利率能实现为正吗?

梅涛:To B的毛利率挺高的,同时,多模态模型Token的毛利率也远远高于大语言模型Token的毛利率。

问:衡量视频赛道企业是否到达商业化的节点,有什么样的标准吗?

王兵:我们观察了这个赛道很长时间,一直没有下手的原因是,我们还不清楚什么时间点品质和成本能够达到商业化水平。

从去年开始,我就感觉那个“点”就快到了,同时我们也在等那个最合适商业化的转折点。这个“点”一定会来,而且就目前来看,它到来的时间比我们想象的要快。

从具体对企业的衡量标准来看:第一个是团队技术背景,团队是该领域的开拓者且经历了很长时间的积累;第二个是稳定性,团队的人才密度很高,能持续保持稳定;第三个是资金效率、研发效率以及团队长期的专注力。

问:您对视频生成赛道创业公司的商业化路径选择是怎么看的?

王兵:在算力成本大幅下降之前,尽量不要在To C上和巨头公司打起来。

以智象为代表的创业公司,先做To B肯定是对的,通过做To B,企业能提升产品的逻辑能力、场景落地的能力,在没有烧很多钱的同时还能实现一定的收入。

问:平台与各大模型平台的合作模式与分成机制是什么?分佣比例方便透露吗?在电商、短剧上又存在什么样的合作模式?

梅涛: 行业共识是,没有一家厂商的模型能满足客户所有要求。所以我们打造了MaaS平台,既沉淀自研的多模态能力,也接入Deepseek等第三方大语言模型,满足客户端到端的需求。平台上沉淀了大量API与Skills,用户贡献行业技能,我们会与之分佣。

在电商短视频广告上,我们有三种收费模式:一是按Token售卖工具;二是RaaS素材服务;三是按GMV分佣,比例在15%至 30%。

短剧方面,我们现阶段主要是给承制方提供AI制作工具,目前不分佣。如果遇到一些精品短剧制作方,比如我们和安徽电视台、华策的合作,我们会联合承制和发行,这种模式下就会有分佣了。

问:您之前提到,AI时代不卷是不行的。今年你们调整了公司的战略,要做“1+1+3”MaaS平台,是什么时间点或者市场体感推动您做出这样的决定?

梅涛:我们是科学家创业背景,习惯脚踏实地做事。但真正对我们触动比较大的是Minimax、智谱等企业港股上市表现优异。在二级市场上,大家对中国AI公司的估值和信心很强,这让我们意识到需要提升品牌叙事能力。

在一级市场的体感上,2023年大家更看重模型效果,但2024年底至2025年更看重商业化成绩,今年大家开始向海外对标模型能力。

今年,一级市场和二级市场的投资人都开始转向模型能力本身,都意识到模型就是产品,产品就是商业化。

我们一直都是同时做模型和商业化。很难说某一家公司的模型排名始终全球第一,如果没有及早建立商业化壁垒、没有用户心智和行业属性,模型能力上去了,商业化很难跟上。我认为模型和商业化需要两手抓。

问:从卖通用工具转到开始卖端到端Agent,你们团队内部有没有battle过?

梅涛:这个争论一直有。

最开始我们觉得模型能力就是产品,因此我们把模型做成了一个简单的C端应用,结果发现并不是这样。除了开发者,普通B端用户不会自己写代码去调用模型,而是要有一个Agent作为中间层。

所以从创业第一天起,我们就坚定要做B端的企业服务。关于商业化的大方向我们没有任何摇摆,To B、To C我们都做,但中间我们摇摆过到底是做SaaS还是做RaaS(内容即服务),包括为什么选择做内容电商,而不是传统的货架电商。

我们踩过很多坑才发现,做货架电商其中的视频或图片可能很长时间不会更换,你很难证明其中的价值。但内容电商的客户每个月要消耗大几千条短视频,超级客户一年要几十、上千万条,这不可能都用人工来拍,这就是端到端Agent的价值所在。

问:你们想做企业服务的模式是指什么?

梅涛:首先,我们不做定制化。我们团队规模才两三百人,但已经服务4万家的中小型企业客户、4000万个人用户以及100多家头部客户。

我们的企业服务主要包括三方面,一是直接做To 大B、To 小B或者To C模式的服务,二是和平台型企业合作,三是通过自己的平台,服务中小型客户。

在AI行业,企业服务不同于传统的B端客户,我们提供标准化的产品和服务,这些客户更像是小B或大C,可能是一个团队,也可能是一个人。

行业还没出现能一统天下的模型

问:目前国内外大厂都在布局世界模型和视频模型,智象未来准备如何面对这些愈发激烈的竞争?

梅涛:这个问题可以拆解为两个方面:

第一,智象如何实现和大厂的共存?

我们可以把整个行业分成三层,第一层是做C端流量入口的平台,如字节、阿里、Google等有流量分发能力的公司;第二层是做底层基座大模型的公司,如Anthropic、OpenAI、也包括字节、阿里;第三层的公司在市面上多如牛毛,包括很多做Agent的公司以及做应用的公司。

我们位于第二层和第三层,既做模型,又做应用。

我们不会和大的模型厂商直面竞争底座模型,但我们会做出一些差异化的竞争。比如,我们的图像开源模型能做到全球排名第一,闭源模型也正在冲榜的过程中,目标是全球前三。在视频领域,我们正在做营销、短剧等垂类应用场景的视频模型。

第二,客户为什么和我们合作?我们是一个严肃认真做企业服务的公司,这也是客户选择我们的原因。很多人说我们公司有点像视频版的Anthropic,团队一直比较稳定,企业服务的基因也很强。

我们想靠模型能力、产品能力和生态能力,在整个商业化环境里走的更远一些。

问:在和大厂争夺获客的过程中,你们是怎么做的?

梅涛:大公司平台不太会去做很深的应用和服务,但对于我们这类企业而言,首先要做是产品、服务,并形成闭环。例如,在商业短视频营销上,我们提供了HiBurst(智象未来的AI营销视频生产平台)服务加SaaS化(软件及服务)的工具。

我们和大厂相比的优势和差异化在于以下几个方面:

在图片领域,我们要成为客户的必选项;

在视频领域,我们则倾向于深耕部分垂类场景:一是无限长视频的生成、长思考和长时长;二是营销场景,做好“人货场”(用户、商品、渠道)的交互;三是短剧领域,我们的MaaS(模型即服务)平台,能优化、编排自研和第三方模型。

总体来看,在To B上,我们既做自己的产品,也做整个行业的生态。我们的策略是,在接入自家产品的同时,也接入第三方模型公司的产品,为用户提供一个端到端的产品和服务。

问:您提到做平台是为了补齐短板,但相比于其他打出“降本”口号的平台,你们如何说服用户付费,并选择你们平台上的生态伙伴?

梅涛: 我们跟大厂在平台上竞争意义不大。首先,我们构建了完整的产品能力,能支撑业务快速迭代;其次,我们提供的是差异化模型能力,比如智象的图片模型在性价比上具备国际竞争力,在视频领域,无论是直播场景、漫剧还是特定内容创作,我们都有大厂覆盖不到的细分优势。目前行业还没出现能一统天下的模型,这给了我们差异化生存的空间。

更关键的是,我们沉淀了大量Skills和行业Knowhow,这也是我们与客户共创的核心。特别是在短视频营销和AI短剧领域,我们通过分析特定区域、国家及类目的爆款逻辑,提供爆款创意裂变方案。这种对爆款规律的把控能力的价值,或许远远大于单纯的内容生产。