- 简介在这项工作中,我们对离散扩散语言模型(dLLMs)和离散扩散多模态语言模型(dMLLMs)进行了系统性的综述。与自回归(AR)模型不同,dLLMs 和 dMLLMs 采用了一种基于全注意力机制的多标记、并行解码范式,并结合了基于去噪的生成策略。这种范式天然支持并行生成、细粒度输出可控性以及动态、响应感知的能力,而这些能力在以往的 AR 模型中难以实现。近期,越来越多的工业级专有 d(M)LLMs 以及大量的开源学术 d(M)LLMs 展现出了与自回归模型相当的性能,同时在推理速度上实现了高达 10 倍的加速。 离散扩散 LLMs 和 MLLMs 的发展主要得益于两个领域的进步。其一是自回归 LLMs 和 MLLMs 的发展,这为训练和推理积累了大量的数据、基准测试以及基础架构。其二是离散扩散背后的数学模型的演进。这两方面的进展共同推动了 2025 年初 dLLMs 和 dMLLMs 研究的迅速兴起。 在这项工作中,我们对 dLLM 和 dMLLM 领域的研究进行了全面概述。我们追溯了 dLLMs 和 dMLLMs 的历史发展轨迹,形式化了其底层的数学框架,并对代表性模型进行了分类。此外,我们分析了训练和推理中的关键技术,并总结了其在语言、视觉-语言以及生物领域中的新兴应用。最后,我们讨论了未来研究和部署的方向。 论文收集:https://github.com/LiQiiiii/DLLM-Survey
- 图表
- 解决问题该论文试图解决如何通过离散扩散模型(dLLMs和dMLLMs)实现与自回归模型相当的性能,同时显著提升生成速度的问题。这是一个相对较新的问题,特别是在多模态语言模型领域。
- 关键思路论文的关键思路是采用基于扩散的非自回归生成范式,结合全注意力机制和平行解码策略,以实现细粒度输出可控性和动态感知能力。相比传统的自回归模型,这种方法可以提供高达10倍的推理加速,并且在性能上不逊色于现有模型。
- 其它亮点论文系统地回顾了离散扩散模型的历史发展、数学框架及代表性模型;分析了训练和推理中的关键技术,并总结了其在语言、视觉-语言和生物领域的应用。此外,论文还提供了开源的论文集合链接(https://github.com/LiQiiiii/DLLM-Survey),便于后续研究者参考。未来的研究方向包括优化模型效率、扩展应用场景以及改进训练方法。
- 相关研究包括:1) 自回归语言模型的发展,如GPT系列和T5;2) 扩散模型的基础研究,例如DDPM(Denoising Diffusion Probabilistic Models)和Score-based Generative Models;3) 多模态扩散模型的研究,如DALL·E系列和GLIDE;4) 其他非自回归生成模型的工作,例如Levy et al. (2023) 提出的Parallel Decoding for Language Models。
沙发等你来抢
去评论
评论
沙发等你来抢