Language Modeling with Hyperspherical Flows

向作者提问

NEW

简介

离散扩散语言模型（Discrete Diffusion Language Models）作为自回归（AR）模型的一种替代方案，近年来发展迅速，主要驱动力在于其支持并行文本生成的能力。然而，为保证计算可行性，现有离散扩散模型需从一个可分解（factorized）的分布中采样，而该分布的建模能力弱于自回归模型。近期提出的流式语言模型（Flow Language Models, FLMs）则将连续流方法引入自然语言建模，通过一个确定性的常微分方程（ODE）将噪声逐步映射至目标数据，从而规避了可分解采样的限制。但FLMs直接在独热（one-hot）向量空间上操作，其向量维度随词表规模线性增长，导致训练开销巨大。此外，由于所有互异的独热向量在ℓ₂范数下彼此等距，向其添加高斯噪声缺乏明确的语义含义——这与图像领域截然不同：在图像中，高斯噪声会渐进式地破坏结构，具有直观的退化语义。为此，我们提出$\mathbb{S}$-FLM：一种工作于超球面（hypersphere）隐空间的流式语言模型。$\mathbb{S}$-FLM通过在单位超球面$\mathbb{S}^{d-1}$上沿学习所得的速度场旋转向量来生成序列，其训练仅依赖交叉熵损失，无需显式构造和存储庞大的独热向量，从而显著降低内存与计算负担。此前的FLMs虽能在生成困惑度（Generative Perplexity, Gen. PPL）指标上与AR模型持平，但在数学推理、程序生成等可验证任务中，高似然度的样本未必正确。相比之下，$\mathbb{S}$-FLM大幅提升了连续流式语言模型在大规模词表下的复杂推理能力，在标准温度（$T = 1$）采样下已基本弥合与掩码扩散模型（masked diffusion）之间的性能差距；而在经优化的低温（$T = 0.1$）解码条件下，二者之间仍存在一定差距。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

离散扩散语言模型虽支持并行生成，但因采用因子化分布而表达能力弱于自回归（AR）模型；连续流语言模型（FLMs）虽通过确定性ODE提升建模能力，却受限于高维one-hot表示（维度=词表大小）、训练开销大，且高斯噪声在离散符号空间缺乏语义意义（如数学/代码等可验证任务中难以保证正确性）。论文旨在构建更高效、语义合理的连续流语言模型，弥合连续流模型与AR及掩码扩散模型在推理质量（尤其在高精度领域）上的差距。
关键思路

提出S-FLM（Sphere Flow Language Model）：将语言建模迁移至单位超球面S^{d-1}隐空间，用旋转操作（而非加性高斯噪声）实现从噪声到文本的连续流变换；通过学习球面上的velocity field，并直接以cross-entropy loss端到端优化旋转轨迹，避免显式构造one-hot向量和欧氏距离失配问题；利用球面几何天然单位范数约束和旋转不变性，赋予噪声注入明确的方向性语义解释。
其它亮点

首次将连续流语言建模建立在超球面流形上；在标准温度（T=1）下显著超越此前所有FLMs，性能逼近掩码扩散模型（如MaskGIT），并在数学/代码等可验证任务中展现更强的正确率；实验覆盖Llama-2/3规模词表（~32K–128K），验证了可扩展性；未提及其开源代码，但方法完全基于PyTorch+JAX兼容的微分几何算子（如expmap/logmap），工程可复现性强；值得深入的方向包括：球面注意力机制设计、与检索增强结合、以及低温度（T=0.1）下性能瓶颈的理论归因（如曲率约束与解耦性权衡）。
相关研究

Flow Language Models (NeurIPS 2023); MaskGIT: Masked Generative Image Transformer (ICCV 2023); Discrete Diffusion for Text Generation (ACL 2022); Spherical Latent Spaces for Stable VAEs (ICLR 2022); Riemannian Score-Based Generative Modeling (NeurIPS 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问