- 简介离散扩散语言模型(Discrete Diffusion Language Models)作为自回归(AR)模型的一种替代方案,近年来发展迅速,主要驱动力在于其支持并行文本生成的能力。然而,为保证计算可行性,现有离散扩散模型需从一个可分解(factorized)的分布中采样,而该分布的建模能力弱于自回归模型。近期提出的流式语言模型(Flow Language Models, FLMs)则将连续流方法引入自然语言建模,通过一个确定性的常微分方程(ODE)将噪声逐步映射至目标数据,从而规避了可分解采样的限制。但FLMs直接在独热(one-hot)向量空间上操作,其向量维度随词表规模线性增长,导致训练开销巨大。此外,由于所有互异的独热向量在ℓ₂范数下彼此等距,向其添加高斯噪声缺乏明确的语义含义——这与图像领域截然不同:在图像中,高斯噪声会渐进式地破坏结构,具有直观的退化语义。 为此,我们提出$\mathbb{S}$-FLM:一种工作于超球面(hypersphere)隐空间的流式语言模型。$\mathbb{S}$-FLM通过在单位超球面$\mathbb{S}^{d-1}$上沿学习所得的速度场旋转向量来生成序列,其训练仅依赖交叉熵损失,无需显式构造和存储庞大的独热向量,从而显著降低内存与计算负担。此前的FLMs虽能在生成困惑度(Generative Perplexity, Gen. PPL)指标上与AR模型持平,但在数学推理、程序生成等可验证任务中,高似然度的样本未必正确。相比之下,$\mathbb{S}$-FLM大幅提升了连续流式语言模型在大规模词表下的复杂推理能力,在标准温度($T = 1$)采样下已基本弥合与掩码扩散模型(masked diffusion)之间的性能差距;而在经优化的低温($T = 0.1$)解码条件下,二者之间仍存在一定差距。
-
- 图表
- 解决问题离散扩散语言模型虽支持并行生成,但因采用因子化分布而表达能力弱于自回归(AR)模型;连续流语言模型(FLMs)虽通过确定性ODE提升建模能力,却受限于高维one-hot表示(维度=词表大小)、训练开销大,且高斯噪声在离散符号空间缺乏语义意义(如数学/代码等可验证任务中难以保证正确性)。论文旨在构建更高效、语义合理的连续流语言模型,弥合连续流模型与AR及掩码扩散模型在推理质量(尤其在高精度领域)上的差距。
- 关键思路提出S-FLM(Sphere Flow Language Model):将语言建模迁移至单位超球面S^{d-1}隐空间,用旋转操作(而非加性高斯噪声)实现从噪声到文本的连续流变换;通过学习球面上的velocity field,并直接以cross-entropy loss端到端优化旋转轨迹,避免显式构造one-hot向量和欧氏距离失配问题;利用球面几何天然单位范数约束和旋转不变性,赋予噪声注入明确的方向性语义解释。
- 其它亮点首次将连续流语言建模建立在超球面流形上;在标准温度(T=1)下显著超越此前所有FLMs,性能逼近掩码扩散模型(如MaskGIT),并在数学/代码等可验证任务中展现更强的正确率;实验覆盖Llama-2/3规模词表(~32K–128K),验证了可扩展性;未提及其开源代码,但方法完全基于PyTorch+JAX兼容的微分几何算子(如expmap/logmap),工程可复现性强;值得深入的方向包括:球面注意力机制设计、与检索增强结合、以及低温度(T=0.1)下性能瓶颈的理论归因(如曲率约束与解耦性权衡)。
- Flow Language Models (NeurIPS 2023); MaskGIT: Masked Generative Image Transformer (ICCV 2023); Discrete Diffusion for Text Generation (ACL 2022); Spherical Latent Spaces for Stable VAEs (ICLR 2022); Riemannian Score-Based Generative Modeling (NeurIPS 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流