- 简介在标准的自回归生成过程中,大语言模型(LLM)会预测下一个词元的概率分布,从中采样一个离散词元,然后丢弃该分布,仅将采样的词元作为新的输入传递。为了保留这一分布中的丰富信息,我们提出了混合输入法(Mixture of Inputs, MoI),这是一种无需训练的自回归生成方法。在按照标准范式生成一个词元后,我们将该生成的离散词元与之前被丢弃的词元分布结合起来,构建一个新的输入。具体来说,我们采用了一种贝叶斯估计方法,将词元分布视为先验,采样的词元视为观测值,并用连续的后验期望代替传统的独热向量,作为模型的新输入。MoI使得模型在整个生成过程中能够保持更丰富的内部表示,从而提升文本质量和推理能力。在数学推理、代码生成和博士水平问答任务中,MoI在包括QwQ-32B、Nemotron-Super-49B、Gemma-3-27B和DAPO-Qwen-32B在内的多个模型上一致提升了性能,且无需额外训练,计算开销也可忽略不计。
- 图表
- 解决问题论文试图解决标准自回归生成中信息丢失的问题,即在生成过程中模型仅保留采样得到的离散token而丢弃了丰富的概率分布信息。这是一个已有问题,但该研究提出了一种新的方法来缓解这一问题。
- 关键思路关键思路是通过Mixture of Inputs (MoI) 方法,在生成过程中将采样的离散token与之前被丢弃的概率分布结合起来。具体来说,使用贝叶斯估计方法,将token分布作为先验,采样token作为观测值,并用连续的后验期望替代传统的one-hot向量作为新输入。相比现有方法,MoI无需额外训练且计算开销极小,同时能够保留更丰富的内部表示。
- 其它亮点论文展示了MoI方法在数学推理、代码生成和博士级别问答任务上的显著性能提升,并验证了其适用于多种大语言模型(如QwQ-32B、Nemotron-Super-49B等)。实验设计涵盖了多个领域和模型规模,表明方法的通用性。此外,MoI不需要额外训练或大量计算资源,具有很高的实用价值。虽然未明确提到代码开源情况,但其简单性和低门槛为后续研究提供了便利。
- 相关研究包括:1) 标准自回归生成方法及其改进(如Top-K采样、核采样);2) 混合专家模型(Mixture of Experts, MoE)的研究,例如Google的Switch Transformer;3) 提高生成质量的工作,如DALL·E系列中的分布保留技术;4) 其他无监督优化生成过程的方法,如《Rethinking the Tokenization Process in Language Models》。这些研究共同探索如何更好地利用生成过程中的概率分布信息以提高模型表现。


提问交流