何恺明团队“扩散模型”新作:在“最后一公里”离散解码
在图像和视频生成领域,扩散模型已经成为主流,但为什么一到文本生成,它却容易出现乱码、重复词等问题?
因为文字本质上是离散的 token,而扩散模型更擅长处理连续数据。过去,为了把扩散模型用于文本生成,研究人员主要采用两种方法:
1.离散扩散语言模型:直接在离散 token 空间中定义扩散过程,比如用 MASK 遮盖 token 再逐步还原,或者先把token 扰动到接近均匀分布,再一步步修正。这种方法近几年一直是主流,整体效果也更强。
2.连续扩散语言模型:先把 token 映射成连续的嵌入向量,再在连续空间中完成去噪,最后再映射回离散 token。这条路线在理论上更自然,也更接近视觉扩散模型的做法,但实际效果长期落后于离散方法。
为解决这个问题,麻省理工学院副教授、Google DeepMind 杰出科学家何恺明团队推出了“嵌入式语言流”(Embedded Language Flows,ELF),这是一类基于连续时间流匹配、在连续嵌入空间中运行的扩散模型。
与现有扩散语言模型不同,ELF 在绝大多数时间步内保持在连续嵌入空间中,仅在最终时间步通过共享权重网络映射至离散 token 上。这种形式使其能够直接复用图像扩散模型中的成熟技术。
论文链接:https://arxiv.org/abs/2605.10938
研究结果表明,连续扩散语言模型即使只对离散化做最小处理,也完全可以具备很强的竞争力。ELF 在不使用蒸馏的情况下用更少的采样步数取得了更低的生成困惑度,所需训练 token 数量仅为以往方法的十分之一。
图|ELF 在不使用蒸馏的情况下,以更少的采样步数实现了比以往 DLM 更低的生成困惑度。与此同时,ELF 的训练 token 数量还减少了 10 倍。
先连续生成,再离散解码
ELF 的核心做法,是先将离散 token 映射到连续嵌入空间,在这一空间中用连续时间的流匹配(Flow Matching)建模从高斯噪声到干净嵌入的去噪轨迹;在最后一个时间步,模型会切换到解码模式,将结果解码回离散 token。
图|ELF 的概念示意。橙色点表示在连续嵌入空间中的数据表示,紫色线条展示了从高斯噪声到干净嵌入的去噪轨迹。离散化仅在最终时间步(t=1)通过共享权重网络完成。
在训练阶段,研究团队使用预训练的 T5 编码器,把文本 token 转成带有上下文信息的连续嵌入。每个嵌入对应一个 token,但它本身不是词表中的具体词,而是该 token 在上下文中的向量表示。随后,ELF 在连续嵌入空间中建模去噪过程,在连续嵌入空间中建模从噪声到干净嵌入的连续流动路径。
推理阶段,ELF 不再调用编码器。模型在连续嵌入空间中逐步生成文本表示,并在最终时间步切换到解码模式,通过共享权重网络和可学习的反嵌入矩阵输出 token。
ELF 设计上的关键,是用一个网络同时承担去噪和解码两个功能,并通过二元 mode token 进行区分。模型按 80% 和 20% 的比例分别进入去噪分支和解码分支,对应使用 MSE 损失和交叉熵损失。
此外,研究团队还引入了自条件机制。推理时,模型使用前一步预测作为下一步去噪的条件,而不会从零开始预测。这不仅提高了生成质量,还为 CFG 提供了现成的条件信号来源,几乎不带来额外的计算负担。
图|在训练过程中,离散 token 会先被编码为干净的嵌入 x,再被扰动为 z_t,ELF 再利用z_t 预测 x̂。模型可采用两种损失之一进行训练:去噪损失 L_MSE,或逐 token 的交叉熵损失 L_CE。在推理过程中,ELF 从高斯噪声 z_0 出发,迭代地将嵌入从 z_t 去噪到z_{t+1}。只有在最后一步,ELF 才会切换到解码模式,通过反嵌入层将最终的嵌入投影回离散 token。
更少采样步数,更低训练预算
研究团队把 ELF 放到三类任务里测试:在 OpenWebText(OWT)上测试无条件文本生成,在 WMT14 德译英任务上测试机器翻译,在 XSum 上测试新闻摘要。
在无条件生成上,ELF-B 的主体模型规模为 105M。在 OWT 系统层面对比中,在不使用额外蒸馏的情况下,ELF-B 仅用 32 个采样步就把生成困惑度降到了 24,优于其他纳入比较的离散和连续扩散语言模型基线。在训练预算上,ELF 使用约 45.2B 有效训练 token,相比之下,MDLM、Duo、LangFlow 等基线约为 524.3B,蒸馏版 MDLM+SDTT 和 Duo+DCD 为 550.5B,FMLM 为 576.7B。
图|系统层面对比。ELF-B 在相近实验设置下优于离散型和连续型扩散语言模型(a);面对那些需要额外蒸馏训练的基线模型,也展现出可比竞争力(b);与此同时,它使用的训练 token 明显更少(c)。
在条件生成上,ELF-B 在 WMT14 德译英任务上达到 BLEU 26.4;在 XSum 摘要任务上,ROUGE-1ROUGE-ROUGE-L 分别达到 36.0、12.2、27.8。与相近规模的自回归模型和扩散语言模型相比,ELF-B 在两个任务上都取得最高结果。
图|机器翻译和摘要任务结果。研究团队在 WMT14 德英(De-En)翻译和 XSum 摘要任务上评估 ELF-B,并将其与参数规模相近的基线模型进行比较。† 表示结果直接取自已有工作, 也是 De-En 任务的默认结果来源;‡ 表示研究团队使用公开代码库复现得到的结果,也是 XSum 任务的默认结果来源。对于 XSum,在可获得时,研究团队还报告了不同评估样本上的标准误。ELF 在两个任务设置中都取得了最佳性能。
其次,消融实验显示,用预训练编码器得到的上下文嵌入,比普通 token 嵌入和可学习嵌入表现更好。共享权重的去噪器-解码器与单独训练解码器效果接近,但流程更简单。采样方式上,受 SDE 启发的采样器在少步生成时优于 ODE 采样器。研究团队指出,模型从 105M 扩展到 342M 和 652M 后,在相近多样性下生成困惑度更低;在相近生成困惑度下,文本多样性更高。
图|关键设计选择的消融实验。
不足与未来方向
研究团队指出,目前 ELF 模型仍有局限,主要有以下几点:
1.模型规模仍然有限
当前评估模型的规模主要是 105M、342M 和 652M,没有把 ELF 与 GPT-4、Claude、Llama 等大规模指令模型正面对比。因此,ELF 证明的是同类扩散语言模型中的竞争力,不是对主流自回归大模型的整体替代。
2.任务范围仍然有限
在研究实验中,OpenWebText 上的 generative perplexity 是代理指标,不能直接代表真实用户偏好。WMT14 和 XSum 能说明翻译与摘要表现,但不能覆盖复杂推理、长上下文对话、代码生成和多轮交互。
3.连续空间依赖预训练编码器
研究团队测试了从零训练的编码器和非上下文embedding,但预训练上下文 embedding 仍然表现最好。这个结果说明,ELF 的效果部分来自已有预训练编码器,而不是完全从零学出连续语言空间。
4.真实部署成本还没有被验证
研究团队报告了采样步数、训练 token 预算和自动指标,没有报告真实服务中的端到端延迟、吞吐量或显存成本,也没有和成熟自回归模型的部署方案直接比较。因此,ELF模型是否更省采样步和训练 token,还需要在真实部署中验证。
本文来自微信公众号 “学术头条”(ID:SciTouTiao),作者:学术头条,36氪经授权发布。