ELF: Embedded Language Flows - 智源社区论文

向作者提问

NEW

简介

扩散模型与基于流的模型已成为生成连续型数据（例如图像和视频）的事实标准方法。其成功应用已激发了学界将其拓展至语言建模领域的浓厚兴趣。然而，与图像领域的对应模型不同，当前主流的扩散语言模型（DLMs）主要在离散词元（tokens）空间中运作。本文表明，仅需对离散领域做极少适配，即可构建出高效可用的连续型扩散语言模型。为此，我们提出了“嵌入式语言流”（Embedded Language Flows, ELF）——一类基于连续时间流匹配（Flow Matching）技术、在连续嵌入空间中构建的扩散模型。与现有扩散语言模型不同，ELF 在绝大多数时间步内始终保留在连续嵌入空间中，仅在最终时间步才通过一个权重共享网络将嵌入向量映射为离散词元。该设计使得图像领域扩散模型中已成熟的技术（例如无分类器引导，Classifier-Free Guidance, CFG）可被直接、便捷地迁移应用。实验结果表明，ELF 在生成质量上显著超越当前领先的离散型与连续型扩散语言模型，且仅需更少的采样步数即可达成更优性能。这些结果表明，ELF 为构建高效、实用的连续型扩散语言模型提供了一条极具前景的新路径。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

如何构建有效的连续空间扩散语言模型（DLMs），克服当前主流离散token级DLMs在采样效率、生成质量及技术迁移性（如classifier-free guidance）上的局限；该问题较新颖——尽管扩散模型在图像领域成熟，但将连续-time flow matching直接应用于语言嵌入空间并保持全程连续性直至最终离散化，在此前工作中尚未系统实现。
关键思路

提出Embedded Language Flows（ELF）：一种基于连续时间Flow Matching的扩散模型，全程在预训练词嵌入空间（continuous embedding space）中建模数据流，仅在最终采样步通过共享权重的轻量映射网络（如线性层+softmax）投射到离散token；关键创新在于解耦连续动力学建模与离散输出，使图像领域成熟技术（如CFG）可无缝迁移，无需修改扩散过程本身。
其它亮点

实验在标准语言建模基准（如WikiText-103、PTB）和文本生成任务上验证，ELF以更少采样步（≤20步）显著超越SOTA离散DLMs（如DiffuSeq）和连续DLMs（如Diffusion-LM）；支持开箱即用的classifier-free guidance，提升可控生成质量；模型设计简洁，复用预训练嵌入（如BERT或RoBERTa），无须重训tokenizer；论文未明确提及开源代码，但方法高度模块化，易于复现；值得深入的方向包括：嵌入空间几何结构建模、动态token映射机制、与自回归模型的混合推理。
相关研究

Diffusion-LM: Discrete Diffusion Models for Language Generation (ICLR 2023); DiffuSeq: Sequence-to-Sequence Diffusion for Text Generation (ACL 2023); Rectified Flow: A Marginal-Free Framework for Continuous Normalizing Flows (NeurIPS 2023); Flow Matching for Generative Modeling (ICML 2023); COLD-DIFFUSION: Text Generation with Latent Diffusion (EMNLP 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问