- 简介我们展示了通过扩展思维模板进行层次化大语言模型(LLM)推理,可以有效优化推理搜索空间,并超越像OpenAI的o1-preview和DeepSeek V3这样的强大LLM的数学推理能力。我们在仅使用8个GPU的情况下训练了我们的ReasonFlux-32B模型,并引入了三项创新:(i) 结构化且通用的思维模板库,包含约500个高层次的思维模板,能够推广到相似或相关的推理问题;(ii) 在一系列思维模板上进行层次化强化学习,而不是在长链思考路径(CoTs)上进行,优化基础LLM以规划出处理复杂问题的最佳模板轨迹;(iii) 一个全新的推理扩展系统,该系统通过在推理时自适应地扩展思维模板,实现层次化LLM推理。通过包含顺序思维模板的模板轨迹,我们的ReasonFlux-32B显著提升了数学推理能力,达到了最先进的水平。值得注意的是,在MATH基准测试中,它实现了91.2%的准确率,比o1-preview高出6.7%。在USA数学奥林匹克竞赛(AIME)基准测试中,ReasonFlux-32B平均解决了56.7%的问题,分别超过了o1-preview和DeepSeek-V3的27%和45%。代码链接:https://github.com/Gen-Verse/ReasonFlux
- 图表
- 解决问题论文试图通过引入一种新的方法——基于层次化语言模型(LLM)推理和扩展思维模板库,来优化数学推理能力。这并不是一个全新的问题,但该研究尝试用更高效的资源利用和创新的方法来提升现有大模型的性能。
- 关键思路关键思路在于开发了一个名为ReasonFlux-32B的模型,它引入了三个主要创新:1)创建了一个结构化的通用思维模板库,包含约500个高层次的思维模板;2)对思维模板序列进行分层强化学习,而不是传统的长链思考过程(CoTs),从而优化基础LLM以规划处理复杂问题的最佳路径;3)提出了一种新的推理扩展系统,在推理时自适应地扩展思维模板,实现分层LLM推理。这种方法旨在有效缩小推理搜索空间并提高数学推理能力。
- 其它亮点实验设计上,作者在MATH基准测试中达到了91.2%的准确率,并在AIME基准上解决了平均56.7%的问题,显著超越了OpenAI的o1-preview和DeepSeek V3。此外,该项目已开源,代码可以在GitHub上找到。未来的研究可以进一步探索如何将这种方法应用于其他领域或改进当前的思维模板库。
- 近期相关研究包括:《Chain of Thought Prompting Elicits Reasoning in Large Language Models》探讨了通过提示链引发大型语言模型中的推理,《Mathematical Reasoning in Large Language Models》研究了大型语言模型在数学推理方面的能力,《Reinforcement Learning from Human Feedback Improves Generalization of Dialogue Policies》则关注于从人类反馈中学习强化对话策略。
沙发等你来抢
去评论
评论
沙发等你来抢