- 简介自回归语言模型由于其固定的、不可更改的从左到右的标记生成方式,会累积错误。为了解决这一问题,我们提出了一种新的采样方法,称为重采样先前标记(RPT)。RPT 通过迭代回顾并可能替换之前生成文本窗口中的标记,从而减轻错误累积。该方法可以集成到现有的自回归模型中,同时保留其下一个标记预测的质量和速度。通过对一个预训练的80亿参数模型仅使用1000亿个token进行微调,RPT 在推理和编程基准测试中相较于标准采样方法实现了约10%的相对改进。
- 图表
- 解决问题论文试图解决自回归语言模型在生成过程中因固定、不可逆的左到右生成方式导致的误差累积问题。这是一个已知问题,但现有的方法通常以牺牲生成速度或质量为代价。
- 关键思路提出了一种新的采样方法——Resample-Previous-Tokens (RPT),通过迭代重访并可能替换之前生成文本窗口中的某些令牌来缓解误差累积。该方法可以在不显著改变模型核心架构的情况下,与现有的自回归模型无缝集成,同时保留其快速的逐词预测能力。相比传统的重新生成整个序列的方法,RPT更具效率且灵活。
- 其它亮点实验表明,在仅对一个8B参数规模的预训练模型进行100B tokens微调后,使用RPT可以带来约10%的相对提升,特别是在推理和编程任务上。此外,论文设计了多组对比实验,验证了不同参数配置下RPT的有效性,并展示了其在长文本生成中的稳定性。虽然未提及代码是否开源,但作者提供了详细的实现细节供后续研究参考。未来可探索RPT与其他生成策略(如Beam Search)结合的效果,以及如何进一步优化计算开销。
- 近期相关工作包括:(1)《Improving Language Model Generation with Retrospective Sampling》,探讨了回顾式采样的潜力;(2)《Revisiting Token-Level Correction for Neural Text Generation》,研究了基于令牌级别的修正技术;(3)《Error-Aware Decoding for Autoregressive Models》,提出了针对自回归模型解码阶段的误差感知机制。这些研究均围绕改进自回归生成展开,但RPT的独特之处在于其简单性和高效性。
沙发等你来抢
去评论
评论
沙发等你来抢