LEDOM: An Open and Fundamental Reverse Language Model

2025年07月02日
  • 简介
    我们提出了LEDOM,这是首个完全反向的语言模型,使用4350亿个token以自回归方式训练而成,包含20亿和70亿参数两种版本。该模型通过预测前一个词的方式,以逆向时间顺序处理序列。我们首次将反向语言模型作为潜在的基础模型应用于通用任务,并提供了一系列引人注目的示例和洞见。基于LEDOM,我们进一步提出了一种全新的应用:“反向奖励(Reverse Reward)”方法,即通过LEDOM对前向语言模型的输出进行重排序,从而在数学推理任务上实现显著的性能提升。该方法利用LEDOM独特的逆向推理能力,通过后验评估来优化生成质量。我们的研究结果表明,LEDOM展现出独特且具有广泛应用潜力的特性。为了促进未来的研究,我们将公开所有模型、训练代码以及预训练数据。
  • 图表
  • 解决问题
    论文试图验证反向语言模型是否可以作为通用任务的基础模型,并探索其在实际任务中的潜力。此外,论文还尝试通过引入‘Reverse Reward’方法,在数学推理等生成质量要求较高的任务上提升现有语言模型的性能。
  • 关键思路
    提出了一种全新的反向语言模型LEDOM,与传统正向语言模型不同,它以反向时间顺序处理序列并通过预测前一个token进行训练。该模型在2B和7B参数规模下训练于4350亿token数据。关键创新在于利用反向建模能力对正向语言模型的输出进行重新排序(Reverse Reward),从而显著提升数学推理任务的表现。
  • 其它亮点
    {LEDOM是首个纯粹的反向语言模型,并被证明在广泛任务中具有应用潜力。,"提出的‘Reverse Reward’方法通过后验评估优化生成结果,显著提升了数学推理任务的效果。","模型在大规模数据集(435B tokens)上训练,并提供2B和7B两种参数版本。",所有模型、训练代码和预训练数据将开源,极大促进了后续研究。}
  • 相关研究
    {"Language Models as Temporal Difference Learners (2023)","Training Verifiers with Contrastive Learning Improves Math Problem Solving (2023)","Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022)","Self-Taught Reasoner (STaR): Learning to Teach Yourself Thoughts While Solving Problems (2023)","Large Language Models Are Zero-Shot Reasoners (2022)"}
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论