何恺明团队“扩散模型”新作：实现“最后一公里”离散解码

以更少采样步数，实现更高生成质量

在图像和视频生成领域，扩散模型已经成为主流，但为什么一到文本生成，它却容易出现乱码、重复词等问题？

因为文字本质上是离散的 token，而扩散模型更擅长处理连续数据。过去，为了把扩散模型用于文本生成，研究人员主要采用两种方法：

1.离散扩散语言模型：直接在离散 token 空间中定义扩散过程，比如用 MASK 遮盖 token 再逐步还原，或者先把token 扰动到接近均匀分布，再一步步修正。这种方法近几年一直是主流，整体效果也更强。

2.连续扩散语言模型：先把 token 映射成连续的嵌入向量，再在连续空间中完成去噪，最后再映射回离散 token。这条路线在理论上更自然，也更接近视觉扩散模型的做法，但实际效果长期落后于离散方法。

为解决这个问题，麻省理工学院副教授、Google DeepMind 杰出科学家何恺明团队推出了“嵌入式语言流”（Embedded Language Flows，ELF），这是一类基于连续时间流匹配、在连续嵌入空间中运行的扩散模型。

与现有扩散语言模型不同，ELF 在绝大多数时间步内保持在连续嵌入空间中，仅在最终时间步通过共享权重网络映射至离散 token 上。这种形式使其能够直接复用图像扩散模型中的成熟技术。

论文链接：https://arxiv.org/abs/2605.10938

研究结果表明，连续扩散语言模型即使只对离散化做最小处理，也完全可以具备很强的竞争力。ELF 在不使用蒸馏的情况下用更少的采样步数取得了更低的生成困惑度，所需训练 token 数量仅为以往方法的十分之一。

图｜ELF 在不使用蒸馏的情况下，以更少的采样步数实现了比以往 DLM 更低的生成困惑度。与此同时，ELF 的训练 token 数量还减少了 10 倍。

先连续生成，再离散解码

ELF 的核心做法，是先将离散 token 映射到连续嵌入空间，在这一空间中用连续时间的流匹配（Flow Matching）建模从高斯噪声到干净嵌入的去噪轨迹；在最后一个时间步，模型会切换到解码模式，将结果解码回离散 token。

图｜ELF 的概念示意。橙色点表示在连续嵌入空间中的数据表示，紫色线条展示了从高斯噪声到干净嵌入的去噪轨迹。离散化仅在最终时间步（t=1）通过共享权重网络完成。

在训练阶段，研究团队使用预训练的 T5 编码器，把文本 token 转成带有上下文信息的连续嵌入。每个嵌入对应一个 token，但它本身不是词表中的具体词，而是该 token 在上下文中的向量表示。随后，ELF 在连续嵌入空间中建模去噪过程，在连续嵌入空间中建模从噪声到干净嵌入的连续流动路径。

推理阶段，ELF 不再调用编码器。模型在连续嵌入空间中逐步生成文本表示，并在最终时间步切换到解码模式，通过共享权重网络和可学习的反嵌入矩阵输出 token。

ELF 设计上的关键，是用一个网络同时承担去噪和解码两个功能，并通过二元 mode token 进行区分。模型按 80% 和 20% 的比例分别进入去噪分支和解码分支，对应使用 MSE 损失和交叉熵损失。

此外，研究团队还引入了自条件机制。推理时，模型使用前一步预测作为下一步去噪的条件，而不会从零开始预测。这不仅提高了生成质量，还为 CFG 提供了现成的条件信号来源，几乎不带来额外的计算负担。

图｜在训练过程中，离散 token 会先被编码为干净的嵌入 x，再被扰动为 z_t，ELF 再利用z_t 预测 x̂。模型可采用两种损失之一进行训练：去噪损失 L_MSE，或逐 token 的交叉熵损失 L_CE。在推理过程中，ELF 从高斯噪声 z_0 出发，迭代地将嵌入从 z_t 去噪到z_{t+1}。只有在最后一步，ELF 才会切换到解码模式，通过反嵌入层将最终的嵌入投影回离散 token。

更少采样步数，更低训练预算

研究团队把 ELF 放到三类任务里测试：在 OpenWebText（OWT）上测试无条件文本生成，在 WMT14 德译英任务上测试机器翻译，在 XSum 上测试新闻摘要。

在无条件生成上，ELF-B 的主体模型规模为 105M。在 OWT 系统层面对比中，在不使用额外蒸馏的情况下，ELF-B 仅用 32 个采样步就把生成困惑度降到了 24，优于其他纳入比较的离散和连续扩散语言模型基线。在训练预算上，ELF 使用约 45.2B 有效训练 token，相比之下，MDLM、Duo、LangFlow 等基线约为 524.3B，蒸馏版 MDLM+SDTT 和 Duo+DCD 为 550.5B，FMLM 为 576.7B。

图｜系统层面对比。ELF-B 在相近实验设置下优于离散型和连续型扩散语言模型（a）；面对那些需要额外蒸馏训练的基线模型，也展现出可比竞争力（b）；与此同时，它使用的训练 token 明显更少（c）。

在条件生成上，ELF-B 在 WMT14 德译英任务上达到 BLEU 26.4；在 XSum 摘要任务上，ROUGE-1ROUGE-ROUGE-L 分别达到 36.0、12.2、27.8。与相近规模的自回归模型和扩散语言模型相比，ELF-B 在两个任务上都取得最高结果。

图｜机器翻译和摘要任务结果。研究团队在 WMT14 德英（De-En）翻译和 XSum 摘要任务上评估 ELF-B，并将其与参数规模相近的基线模型进行比较。† 表示结果直接取自已有工作，也是 De-En 任务的默认结果来源；‡ 表示研究团队使用公开代码库复现得到的结果，也是 XSum 任务的默认结果来源。对于 XSum，在可获得时，研究团队还报告了不同评估样本上的标准误。ELF 在两个任务设置中都取得了最佳性能。

其次，消融实验显示，用预训练编码器得到的上下文嵌入，比普通 token 嵌入和可学习嵌入表现更好。共享权重的去噪器-解码器与单独训练解码器效果接近，但流程更简单。采样方式上，受 SDE 启发的采样器在少步生成时优于 ODE 采样器。研究团队指出，模型从 105M 扩展到 342M 和 652M 后，在相近多样性下生成困惑度更低；在相近生成困惑度下，文本多样性更高。

图｜关键设计选择的消融实验。

不足与未来方向

研究团队指出，目前 ELF 模型仍有局限，主要有以下几点：

1.模型规模仍然有限

当前评估模型的规模主要是 105M、342M 和 652M，没有把 ELF 与 GPT-4、Claude、Llama 等大规模指令模型正面对比。因此，ELF 证明的是同类扩散语言模型中的竞争力，不是对主流自回归大模型的整体替代。

2.任务范围仍然有限

在研究实验中，OpenWebText 上的 generative perplexity 是代理指标，不能直接代表真实用户偏好。WMT14 和 XSum 能说明翻译与摘要表现，但不能覆盖复杂推理、长上下文对话、代码生成和多轮交互。

3.连续空间依赖预训练编码器

研究团队测试了从零训练的编码器和非上下文embedding，但预训练上下文 embedding 仍然表现最好。这个结果说明，ELF 的效果部分来自已有预训练编码器，而不是完全从零学出连续语言空间。

4.真实部署成本还没有被验证

研究团队报告了采样步数、训练 token 预算和自动指标，没有报告真实服务中的端到端延迟、吞吐量或显存成本，也没有和成熟自回归模型的部署方案直接比较。因此，ELF模型是否更省采样步和训练 token，还需要在真实部署中验证。

本文来自微信公众号 “学术头条”（ID：SciTouTiao），作者：学术头条，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

何恺明团队“扩散模型”新作：在“最后一公里”离散解码

先连续生成，再离散解码

更少采样步数，更低训练预算

不足与未来方向