Continuous Autoregressive Language Models

2025年10月31日
  • 简介
    大语言模型(LLM)的效率从根本上受限于其逐个生成标记的串行过程。我们认为,要突破这一瓶颈,需要引入一种全新的LLM扩展设计维度:提升每一步生成过程的语义带宽。为此,我们提出了连续自回归语言模型(CALM),将传统的离散式“下一个标记”预测范式转变为连续的“下一个向量”预测。CALM采用高保真自编码器,将连续K个标记压缩为一个单一的连续向量,并能以超过99.9%的准确率从中重建原始标记序列。这使得我们可以将语言建模为连续向量的序列,而非离散标记的序列,从而将生成步骤的数量减少为原来的1/K。这种范式转变要求一套全新的建模工具,因此我们开发了一套完整的无需似然函数的框架,支持在连续空间中进行鲁棒的训练、评估以及可控采样。实验表明,CALM显著改善了性能与计算成本之间的权衡关系,能够在远低于传统离散基线模型的计算开销下达到同等甚至更优的性能。更重要的是,这些发现确立了“下一个向量”预测作为通向超高效语言模型的一条强大且可扩展的新路径。代码地址:https://github.com/shaochenze/calm。项目主页:https://shaochenze.github.io/blog/2025/CALM。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文试图解决大语言模型(LLMs)因逐token生成导致的推理效率瓶颈问题,验证是否可以通过提升每个生成步骤的语义带宽来显著降低生成步数并提高计算效率。这是一个具有现实紧迫性的问题,尤其在部署高效LLM时至关重要,虽然并非全新问题,但其解决路径提出了新的设计维度。
  • 关键思路
    提出连续自回归语言模型(CALM),将传统的离散‘下一个token预测’转变为‘下一个连续向量预测’。通过高保真自动编码器将K个token压缩为一个可重构的连续向量,从而将生成步骤减少K倍。这一范式转变引入了从离散到连续语言建模的新设计轴,显著提升了每一步的语义密度和生成效率。相比现有工作,该思路系统性地探索了‘语义带宽’作为扩展LLM的新维度,是架构层面的创新。
  • 其它亮点
    开发了一套完整的无需似然的训练、评估与可控采样框架,以支持连续向量空间中的语言建模;实验表明CALM在显著更低的计算成本下达到与强离散基线相当甚至更优的性能;使用真实文本数据进行训练,并实现了超过99.9%的token级重建精度;代码已开源(GitHub链接提供),项目主页公开,具备良好可复现性和工程价值;未来值得深入研究如何动态调整K值、优化向量长度与语义密度的关系,以及在多模态中的扩展应用。
  • 相关研究
    近期相关研究包括: - 'Large Language Models as Optimizers' (2023) - 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models' (2022) - 'Efficient Text Generation with Large Language Models: A Survey' (2023) - 'Speculative Decoding: Accelerating Generative Inference of Large Language Models' (2023) - 'LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale' (2022) 这些工作分别从推理加速、量化、提示工程等角度提升LLM效率,而CALM从生成范式本身出发,提供了互补且更具根本性的改进路径。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问