Math-Shepherd: A Label-Free Step-by-Step Verifier for LLMs in Mathematical Reasoning

2023年12月14日
  • 简介
    大型语言模型(LLMs)已经展示了在各种任务中的非凡能力。然而,即使是最先进的开源LLMs,例如LLaMA系列模型,在准确解决复杂的多步数学问题方面仍然面临挑战。在本文中,我们提出了一种创新的面向过程的数学验证器,称为\textbf{Math-Shepherd},它为LLM在数学问题上的每个步骤分配一个奖励分数。 Math-Shepherd的训练是通过使用自动构建的过程级监督数据实现的,打破了现有工作中对手动注释的重度依赖的瓶颈。在Math-Shepherd的指导下,一系列开源LLMs展现了出色的性能。其中,DeepSeek 67B \citep {DeepSeek-llm}在没有外部增强(如工具使用)的情况下,在GSM8K数据集上实现了93.3%的准确率,在MATH数据集上实现了48.1%的准确率。我们的Math-Shepherd也优于自洽方法和其他现有的验证模型。我们相信,自动化的过程监督对于未来LLMs的发展具有重要潜力。
  • 图表
  • 解决问题
    本文旨在解决LLMs在多步复杂数学问题中的准确性问题,提出了一种名为Math-Shepherd的过程导向的数学验证器。
  • 关键思路
    Math-Shepherd通过对LLMs输出的每个步骤进行奖励评分来指导其解决数学问题,使用自动构建的过程监督数据进行训练,避免了对人工注释的重度依赖。
  • 其它亮点
    实验结果表明,在Math-Shepherd的指导下,DeepSeek 67B在GSM8K数据集上的准确率达到了93.3%,在MATH数据集上的准确率达到了48.1%,同时还超越了自我一致性方法和其他现有的验证模型。
  • 相关研究
    最近的相关研究包括LLMs在各种任务上的应用,以及使用不同技术来解决数学问题,如基于规则的方法和基于神经网络的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论