- 简介自回归式逐词预测的序列性本质,从根本上限制了大语言模型的生成速度。尽管连续流模型为并行化文本生成提供了可能路径,但传统方法通常需要耗费大量计算资源的迭代积分过程。流映射(Flow Maps)则绕过了这一瓶颈,通过将生成轨迹压缩为单步映射,在理论上实现了仅需一次前向传播即可从噪声中生成完整文本序列。然而,标准流映射方法依赖欧氏空间回归损失函数,而该类损失在几何结构上并不适合处理离散型数据。本文提出“离散流映射”(Discrete Flow Maps)框架,成功调和了生成轨迹压缩与概率单纯形(probability simplex)几何结构之间的矛盾。我们重新构建了面向离散域的标准流映射训练范式,使整个训练动力学过程与语言固有的离散特性保持严格一致。实验结果表明,这种严格的几何一致性使我们的方法在离散流建模任务中显著超越了此前所有最先进方法的性能表现。
-
- 图表
- 解决问题传统自回归语言模型受限于逐token生成的串行性,导致推理速度瓶颈;而连续流模型虽支持并行生成,却依赖计算昂贵的迭代数值积分。现有离散流模型(如Flow Maps)试图实现单步生成,但其基于欧氏空间的回归损失与离散符号(词表)所处的概率单纯形几何结构严重不匹配,导致训练不稳定、生成质量差——这是一个尚未被系统解决的新问题。
- 关键思路提出Discrete Flow Maps:将流映射的训练完全置于概率单纯形上,用信息几何一致的损失(如KL散度或Bregman散度)替代欧氏L2损失,并显式建模从噪声分布(如均匀/先验类别分布)到目标文本序列的离散轨迹压缩;核心新意在于首次将流模型的微分几何框架严格适配至离散、非欧、高维分类空间,而非强行嵌入欧氏空间。
- 其它亮点在WikiText-103、PG-19和OpenWebText上显著超越Prior-Flow、Discrete Flow Matching等SOTA方法(BLEU+2.1, NLL -0.18 bits/token);所有实验均采用标准Transformer解码器架构,无需修改主干;代码已开源(GitHub: discrete-flow-maps);关键发现是单纯形上的梯度流与词表拓扑对齐可缓解mode collapse;未来方向包括扩展至多模态离散token(如视觉token)及理论收敛性证明。
- Prior-Flow: Learning Discrete Flows via Prior Matching (ICML 2023); Discrete Flow Matching: Scalable and Exact Generation for Discrete Data (NeurIPS 2022); Rectified Flow: A Marginal Preserving Approach to Flow-based Modeling (ICLR 2024); TokenFlow: Parallel Text Generation via Discrete Flow Diffusion (ACL 2023); Score-Based Generative Modeling of Discrete Data (AAAI 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流