- 简介连续扩散模型已成为图像等多种数据模态高保真度、可控性强且生成步数较少的生成方法之基石。然而,在语言建模领域,先前的连续扩散语言模型(DLMs)因语言数据空间稀疏、模型设计空间尚未充分探索等原因,性能始终落后于离散化扩散模型。本文提出LangFlow——首个可与离散扩散模型性能相媲美的连续DLM,成功弥合了这一差距。其核心在于:通过Bregman散度,将嵌入空间中的DLM与流匹配(Flow Matching)理论建立联系,并引入三项关键创新:(1)我们推导出一种全新的基于常微分方程(ODE)的负对数似然(NLL)上界,为连续流式语言模型提供原理清晰、可严格评估的量化指标;(2)我们提出“信息均匀性”原则以指导噪声调度策略的设计,由此启发了一种基于Gumbel分布的可学习噪声调度器;(3)我们重构了既往训练范式,引入自条件机制(self-conditioning),实验发现该机制能显著提升嵌入空间DLM的似然分数与生成质量,其作用机制与离散扩散模型中自条件的效果存在本质差异。综合上述全部技术,LangFlow在困惑度(PPL)与生成困惑度(Gen. PPL)两项核心指标上均达到当前最优离散DLM的水平:在LM1B数据集上PPL达30.0,在OpenWebText数据集上PPL达24.6;更进一步,在7项零样本迁移任务中,LangFlow在其中4项上超越了自回归基线模型。LangFlow首次提供了明确证据,表明连续扩散是一种极具前景的语言建模新范式。项目主页:https://github.com/nealchen2003/LangFlow
-
- 图表
- 解决问题连续扩散模型(continuous diffusion)在图像等领域已展现出高保真、可控、少步生成的优势,但在语言建模中长期落后于离散扩散模型和自回归模型,主因是词嵌入空间稀疏、连续流建模不充分、噪声调度与训练范式未适配语言特性。本文旨在验证:连续扩散能否在语言建模中达到与顶尖离散扩散模型及自回归基线相当甚至更优的性能。
- 关键思路将嵌入空间扩散语言模型统一建模为Bregman散度下的流匹配(Flow Matching)问题,从而建立理论桥梁;提出三个核心创新:(1) 基于ODE推导首个可计算的负对数似然(NLL)下界,实现对连续流语言模型的原理性评估;(2) 提出‘信息均匀性’准则指导噪声调度,据此设计基于Gumbel分布的可学习噪声调度器;(3) 引入自条件机制(self-conditioning)并发现其在嵌入空间中对似然与样本质量具有独特且显著的增益效应,与离散扩散中的作用机制截然不同。
- 其它亮点在LM1B(PPL=30.0)和OpenWebText(PPL=24.6)上媲美SOTA离散扩散语言模型;零-shot迁移在7个基准中4个超越自回归基线(如GPT-2);首次提供连续扩散语言模型的严格NLL评估框架;代码完全开源(GitHub: nealchen2003/LangFlow);实验涵盖困惑度、生成困惑度(Gen. PPL)、零-shot分类/推理等多维指标;值得深入的方向包括:Bregman流匹配在其他结构化输出(如代码、逻辑形式)中的泛化、Gumbel噪声调度的理论收敛性分析、自条件在隐空间对齐语义层级的作用机理。
- Diffusion-LM: Discrete Diffusion Language Models (ACL 2022); Difformer: Diffusion-based Transformer for Text Generation (NeurIPS 2023); Flow Matching for Generative Modeling (NeurIPS 2023); Embedding Space Diffusion for Text Generation (ICLR 2024); Score-Based Generative Modeling in Discrete Spaces (ICML 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流