LADDER: Self-Improving LLMs Through Recursive Problem Decomposition

2025年03月02日
  • 简介
    我们介绍了LADDER(通过自主难度驱动示例递归进行学习),这是一种使大型语言模型能够通过自导学习,递归生成并解决复杂问题的逐步简化版本,从而自主提升其解决问题的能力的框架。与之前需要精心整理的数据集或人工反馈的方法不同,LADDER利用模型自身的能力生成更简单的问题变体。我们在数学积分领域展示了LADDER的有效性,将Llama 3.2 3B在本科水平问题上的准确率从1%提高到82%,并使Qwen2.5 7B Deepseek-R1 Distilled在麻省理工学院积分大赛资格考试中达到73%的准确率。我们还引入了TTRL(测试时强化学习),即在推理过程中对测试问题的变体进行强化学习。TTRL使Qwen2.5 7B Deepseek-R1 Distilled在麻省理工学院积分大赛资格考试中取得了90%的最新成绩,超过了OpenAI o1的表现。这些结果表明,自我指导的战略性学习可以在不依赖架构扩展或人工监督的情况下实现显著的能力提升。
  • 作者讲解·1
  • 图表
  • 解决问题
    该论文试图解决大型语言模型在复杂问题解决能力上的不足,特别是数学积分问题。它提出了一种无需人工监督或特定数据集的方法来提升模型的性能。这是一个相对新颖的问题,尤其是在利用模型自主生成训练数据方面。
  • 关键思路
    关键思路是引入LADDER框架,通过自主递归生成和解决逐渐简化的问题变体,使大型语言模型能够自我提升其解决问题的能力。此外,结合TTRL(测试时强化学习),在推理过程中对问题变体进行强化学习,以进一步提高模型的表现。相比现有研究,LADDER不依赖于外部数据集或人类反馈,而是利用模型自身能力生成训练样本,这是其创新之处。
  • 其它亮点
    亮点包括:1) 在数学积分问题上显著提升了Llama 3.2 3B和Qwen2.5 7B Deepseek-R1 Distilled模型的准确率;2) 使用TTRL方法使Qwen2.5 7B Deepseek-R1 Distilled在MIT Integration Bee资格考试中达到了90%的准确率,超越了OpenAI o1的表现;3) 论文展示了自导式战略学习的巨大潜力,无需架构扩展或人工监督即可实现性能大幅提升。实验设计严谨,使用了多种模型和基准测试,但未提及是否开源代码。
  • 相关研究
    最近的相关研究包括:1) 利用人类反馈改进语言模型的RLHF(Reinforcement Learning from Human Feedback)方法;2) 探索预训练与微调策略以增强模型特定任务表现的研究;3) 针对特定领域如数学、物理等开发专用模型的工作。例如,《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》探讨了通过提示链引导大型语言模型进行推理的方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问