MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time

2024年05月25日
  • 简介
    虽然大型语言模型(LLMs)在各种任务中取得了显著的表现,但它们通常在复杂的推理任务中遇到困难,例如回答数学问题。最近的解决此问题的努力主要集中在利用数学数据集进行监督微调或自我改进技术。然而,这些方法通常依赖于难以准备的高质量数据集,或者需要大量的计算资源进行微调。受到发现LLMs知道如何产生正确答案但难以选择正确推理路径的启发,我们提出了一种纯推理搜索方法MindStar(M *),将推理任务视为搜索问题。该方法利用逐步推理方法来导航树空间。为了增强搜索效率,我们提出了两种树搜索思想来确定最优的推理路径。我们在GSM8K和MATH数据集上评估了M *框架,将其性能与现有的开源和闭源LLMs进行比较。我们的结果表明,M *显着增强了开源模型(如Llama-2-13B和Mistral-7B)的推理能力,并实现了与GPT-3.5和Grok-1相当的性能,但模型大小和计算成本大大降低。
  • 图表
  • 解决问题
    提高大型语言模型在数学推理任务中的表现
  • 关键思路
    利用基于推理的搜索方法,将推理任务视为搜索问题,通过两种树搜索思路来识别最优推理路径
  • 其它亮点
    提出了一种基于推理的搜索方法MindStar(M*),能够显著提高开源模型的推理能力,同时在模型大小和计算成本方面具有优势。在GSM8K和MATH数据集上进行了实验,与现有的开源和闭源LLM进行了比较,结果表明M*达到了与GPT-3.5和Grok-1相当的性能水平
  • 相关研究
    其他研究主要集中在利用数学数据集进行有监督的微调或自我改进技术上,而M*则是一种完全基于推理的搜索方法
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论