国产模型悄无声息地赢得了一场多模态战役
就在昨天,国产模型悄无声息地赢得了一场多模态战役。
正当字节跳动的Seedance 2.0视频生成模型扬名海外,OpenAI却突然宣布即将关停旗下视频生成模型Sora的相关服务。
在这个智能体时代,人们已经逐渐意识到多模态能力的重要性。
Seedance 2.0凭借它的强大能力,已经被人们视为未来制作电影的“神器”,而它现在唯一存在的尴尬之处,就在于缺少配音。
音频生成看起来比视频生成要简单,但给视频精准配音(Video-to-Audio, V2A)却十分困难:完美的配音不仅要“贴脸(语义与声音同步)”,还要做到“好听(美学质量)”和“身临其境(空间立体声)”。
为了补齐视频生成模型“走向电影”的短板,阿里通义实验室和香港科技大学、香港中文大学的研究团队共同进行了一项有里程碑意义的研究:PrismAudio。
这是业内首个将强化学习(RL)与专门的多维思维链(CoT)规划深度集成到V2A生成中的框架。
研究团队不仅提出了能够大幅降低扩散模型强化学习训练成本的Fast-GRPO算法,还开源了高难度基准测试数据集AudioCanvas。
更惊人的事实是,PrismAudio凭借仅仅518M的参数量,击败了众多数十亿参数级别的模型,在所有感知维度上全面刷新了SOTA。
01 V2A生成的“不可能四角”
全球范围内,AI的多模态目前仍然局限于文本、图像、音频和视频四类核心模态。
在过去的一年中,文生图、文生视频和图生视频的模型已经变得常见,唯有音频这个模态与其他核心模态的通路尚未完全打通。
尽管市面上已经有不少AI音乐生成的产品,但视频生成音频的本质不同于“看图说话”,在人类的感知世界,一段合格的视频配音至少要经过以下四个维度的考验:
一是语义一致性:这是最简单的要求,画面里说的是中文,声音就不能是英文;
二是时间同步性:类似于影视作品中的“对口型”,保证发出声音的时间与视频一致;
三是美学质量:声音需要具有主观的丰富度、保真度和艺术感,而不能是单调的电子音;
四是空间准确性:左右声道需要跟随画面中的运动物体形成完美的声像移动。
早期的V2A-Mapper等模型直接将画面映射为音频,但缺乏对中间过程“黑盒”的控制能力。
近期的MMAudio、MovieGenAudio等模型虽然引入了文本提示词控制,但控制能力仍然略显薄弱。
直到2025年7月,阿里通义实验室的刘华戴博士开源了ThinkSound模型,开创性地将思维链(CoT)引入多模态大模型,让模型在生成声音前先“思考”应该发出什么声音,大大提高了模型的逻辑性。
尽管如此,ThinkSound也存在三个致命缺陷:
一是思维链极其混乱:它把识别物体、对齐时间、判断美感、计算空间位置这些过程全都放在同一个思考过程中。
这就像让一个学生同时做语文、数学、英语、物理等不同科目的卷子,结果可想而知,模型容易出现“多模态幻觉”。
二是目标纠缠(Objective Entanglement):在训练过程中,模型使用的是单一的重建损失函数,但感知目标之间往往存在竞争关系。
也就是说,模型为了把发声时间对准,可能生成了一个难听的噪音;生成了好听的声音,可能又无法与画面吻合。
三是缺乏人类偏好对齐:现有的模型只会照本宣科地拟合训练数据,但没有引入人类反馈强化学习(RLHF)来学习什么才是人类觉得“好听”的声音。
这一点也是多模态模型面临的最大难点之一:
对于大语言模型,回答的正确与错误一目了然;但对于图像、音频和视频,人类能轻易判断出何为“坏”,但无法准确定义何为“好”。
02 PrismAudio:像顶级音效师一样思考
PrismAudio给出了优雅的解法,而核心思想并不复杂:分而治之的思维链规划+对症下药的强化学习优化。
它的架构建立在一个强大的基础模型之上。
为了提升模型对视频模态和复杂逻辑的理解能力,研究团队不仅把传统的视觉编码器CLIP换成了专门用于理解视频的VideoPrism(Google,2024),还把文本编码器也一并升级为具备强大逻辑推理能力的T5-Gemma(Google,2025)。
接下来,就轮到它的核心技术大显身手:
1.分解式多维思维链
既然把各种V2A需求都放到同一个思考过程中行不通,PrismAudio干脆直接将思考过程拆解成了四个独立且专业的CoT链路。
在音频生成之前,模型需要按顺序提交四份“分析报告”:
语义CoT:专注于内容识别,例如“画面中的一匹马开始奔跑,马蹄声逐渐增强,最后停下伴有喘息声”。
时间CoT:专注于时序排序,例如“起初是缓慢的步伐,随后加速进入稳定的节奏,最后步伐放缓直至停止。”
美学CoT:专注于音质感受,例如“音频保持清晰、干脆的马蹄声,带有自然的混响。”
空间CoT:专注于声场定位,例如“声音从左侧声像出现,穿过中心,最后在右侧淡出。”
四个维度的“分析报告”拼接起来,就可以作为一份极强的文本条件输入给扩散基础模型。
这种显式的逻辑推理不仅解决了思维混乱的问题,还能让生成过程的“黑盒”更加可控和可解释。
2.多维度强化学习
思考过程已经理顺,下一步就该解决目标纠缠的问题,并让模型生成的音频符合人类的偏好。
为此,针对已有的四个CoT,团队设计了与之对应的四个独立的奖励模型:
对语义CoT,使用微软的MS-CLAP模型评估音频和文本内容是否一致;
对时间CoT,使用高度敏锐的Synchformer模型检查音画是否同步;
对美学CoT,使用Meta的音频质量评估工具Audiobox Aesthetics预测人类主观打分;
对空间CoT,使用StereoCRM方法验证立体声方向定位的精确度。
如此一来,模型生成的音频就有了一个具体的评判标准,强化学习机制也就有了理想的训练目标。
3.Fast-GRPO算法
研究团队首先将目光锁定在DeepSeek团队在2024年提出的轻量级高效强化学习算法GRPO上。
不过,GRPO只能应用在离散自回归生成的大语言模型上,要想在多模态扩散模型上应用,就得使用Flow-GRPO,即应用于流匹配模型的GRPO。
但即便如此,这里还有一个关键的根本性问题没有解决:
无论是生成图像还是音频,模型都是从一团纯噪声开始,经过几十步或几百步的去噪过程,最终还原出清晰的信号。
为了让模型在去噪过程中能够发现“好”的声音,Flow-GRPO把这几百步过程全部变成了随机微分方程,模型在每一步去噪过程中都要加入一点随机噪声并计算策略比率。
这个过程带来的后果是灾难性的,神经网络的反向传播梯度变得极深,显存和训练时间都会指数级爆炸,计算复杂度也达到O(T),其中T是去噪过程的总步数。
如今,算力就等同于成本,为了填补这个算力“黑洞”,研究团队采用了一个看似投机取巧的方法:Fast-GRPO。
这是一种混合采样路径,在模型开始将噪声转化为音频之前,随机在总步数中圈定一个极其狭窄的时间段,这个只有几步的小区间被称为“优化窗口”。
在优化窗口内,模型使用随机微分方程,引入随机噪声探索更“好”的声音;在优化窗口外,模型使用常微分方程进行确定性采样,极度高效、路径唯一且不需要计算复杂的策略概率。
乍一看,Fast-GRPO只在去噪过程中间抽取了一小段进行随机探索,可能会影响扩散模型最后生成的概率分布。
实际上,这个方法有极其严密的数学论证。
而当这个方法被实际应用到模型中,得到的结果令人惊喜:
首先是算力消耗断崖式下跌:时间复杂度从O(T)直接降到接近线性,显存占用和训练时间也降低到普通实验室可以接受的范围之内,免得像Sora一样入不敷出。
除此之外,收敛速度和最终效果同样有所提升:Fast-GRPO使得模型只需要200步即可完成原先需要600步的去噪过程,分数也从0.47提升至0.51。
03 以小博大,全面碾压
真金不怕火炼。在极其严苛的实验环境下,PrismAudio仍然展现出了强大的统治力:
在牛津大学VGG团队2020年发布的大规模音视频数据集VGGSound上,仅有518M参数的PrismAudio与通义实验室研发的前代模型ThinkSound(1.3B)、腾讯混元的Video-Foley(5.31B)以及开源模型MMAudio(1.03B)展开了正面交锋。
无论是语义对齐(CLAP)、音画同步误差(DeSync)、空间精度误差(CRW)等客观指标,还是人类评估的音质(MOS-Q)、音画一致性(MOS-C)等主观指标,PrismAudio都超越了包含上一代SOTA模型在内的所有竞争对手。
不过,前面已经说过,相比文本、图像和视频,音频模态的发展其实略显落后。现有的评测数据集,大多标注粗糙、场景单一。
为此,研究团队耗费巨大精力构建了一个包含3177个真实世界视频的高难度基准测试:AudioCanvas。
这个测试集中的音视频经过严格的人工过滤,彻底剔除了画外音和BGM的干扰,并精心设计了501个多事件复杂场景,用以考验模型区分和融合多种声音的能力。
除此之外,研究团队还使用Gemini 2.5 Pro为视频生成了详尽的思维链推理文本,经过人工验证,准确率高达94%以上。
面对AudioCanvas中复杂的多时间场景,前代模型在时间同步和空间准确性上几乎直接崩溃。
但PrismAudio仍然不动如山,展现出了惊人的健壮性,各项指标稳居第一。
值得注意的是,在语义对齐和时间同步等一些客观指标上,PrismAudio的表现甚至超越真实视频的原声音。
也就是说,真实世界的杂音会干扰客观指标,而PrismAudio经过强化学习反而生成了高度符合人类理想预期的声音。
表格中的最后一行,则是对奖励函数的消融实验结果:
如果去掉了多维思维链和Fast-GRPO算法,PrismAudio瞬间变得表现平平,和竞争对手几乎没有区别,这些核心机制能发挥多大的作用,已经铁证如山。
04 阿里在多模态领域的选择
PrismAudio的诞生,不仅让音频生成技术正式告别了“黑盒”的不可控时代,更在商业落地上展现出了巨大的想象空间。
站在智能体时代的十字路口审视国产大模型的出路,其实留给各家AI大厂的出路已经极其有限,核心无非两条路:代码能力和多模态能力。
PrismAudio,恰恰是阿里在千问APP营销无果、深思熟虑后打出的一张底牌。
在代码和逻辑推理赛道,以Claude Code为首的国际顶尖模型目前依然占据绝对的统治地位。
这条路研发壁垒极高、推理成本昂贵,国内短期内看不到推出平替产品的可能性。
而在多模态赛道,文生视频已经进入激烈的内卷阶段,字节跳动凭借Seedance 2.0跻身全球第一梯队,可灵和Sora也紧随其后。
相比之下,通义万相显得不温不火,在没有抖音这种短视频平台的数据加持下,此时在这条拥挤的视觉赛道上与竞争对手死磕算力绝非明智的战略选择。
因此,阿里给出的解法是绕道而行:既然其他人都在制造“无声的躯壳”,那我就去制造“声音的灵魂”。
在人类的感知中,视频和音频往往存在强绑定关系。
无论AI生成的视频画面有多震撼,只要它还缺少必要的声音,就永远只是一个半成品。
PrismAudio展现出的极强可控性、完美时间对齐和高保真音质,让阿里直接切入了多模态赛道的最后一个赛段。
这种绕道而行的打法,不仅避开了正面的同质化竞争,还让通义系列的模型产品成为了AI影视工作流中不可或缺的核心。
在“模型即服务”的生态环境竞争中,谁掌握了标准,谁就拥有了定义权。
通义实验室的研究团队已经承诺,在论文发表后将完全开源PrismAudio的所有代码、模型权重和AudioCanvas基准测试数据集。
表面上是学术风险,实际上商业占位:开源现有的难度最高、标准最严格的测试基准,正是阿里试图定义V2A行业标准的体现。
Sora丢失王座,Seedance 2.0新王登基,高质量、细粒度控制的音频生成注定将成为多模态领域下一个万亿赛道的核心。
阿里已经探索出了正确的道路,至于怎么走、能否走得好,仍然值得期待。
本文来自微信公众号“硅基星芒”,作者:思齐,36氪经授权发布。