Improve Mathematical Reasoning in Language Models by Automated Process Supervision

2024年06月05日
  • 简介
    复杂的多步推理任务,例如解决数学问题或生成代码,即使是最先进的大型语言模型(LLMs)也仍然面临重大障碍。使用结果奖励模型(ORM)验证LLM输出是一种标准推理时间技术,旨在提高LLM的推理性能。然而,这仍然无法满足具有冗长或多跳推理链的推理任务,其中中间结果既没有得到适当的奖励也没有受到惩罚。过程监督通过在推理过程中分配中间奖励来解决这个问题。迄今为止,用于收集过程监督数据的方法要么依赖于人工注释,要么依赖于每步蒙特卡罗估计,这两种方法都无法扩展,从而阻碍了这种技术的广泛应用。为了解决这个挑战,我们提出了一种名为OmegaPRM的新型分而治之的蒙特卡罗树搜索(MCTS)算法,旨在有效收集高质量的过程监督数据。该算法通过二分搜索迅速确定Chain of Thought(CoT)中的第一个错误,并平衡正面和负面的例子,从而确保了效率和质量。因此,我们能够收集超过150万个过程监督注释来训练过程奖励模型(PRM)。利用这种完全自动化的过程监督以及加权自一致性算法,我们提高了经过指导的Gemini Pro模型的数学推理性能,在MATH基准测试中实现了69.4%的成功率,相对于51%的基线模型性能提高了36%。此外,整个过程没有任何人类干预,使我们的方法在财务和计算上都比现有方法具有成本效益。
  • 图表
  • 解决问题
    本篇论文旨在解决复杂的多步推理任务,如解决数学问题或生成代码,对于即使是最先进的大型语言模型(LLM)而言仍然是一个重大障碍。作者提出了一种名为OmegaPRM的新型Monte Carlo Tree Search(MCTS)算法,用于有效收集高质量的过程监督数据,以解决当前过程监督数据收集方法昂贵的问题。
  • 关键思路
    OmegaPRM算法通过二分搜索快速识别CoT中的第一个错误,并平衡正负例,从而确保效率和质量。作者利用这种全自动的过程监督方法和加权自一致性算法来提高Gemini Pro模型在数学推理方面的性能。
  • 其它亮点
    作者的OmegaPRM算法可以快速、高效地收集过程监督数据,避免了人工注释和每步蒙特卡罗估计的高成本。作者使用了1.5百万个过程监督注释来训练PRM,并在MATH基准测试中实现了69.4%的成功率,相对于基准模型的51%有36%的相对改进。整个过程没有任何人为干预,因此方法在财务和计算方面都是具有成本效益的。
  • 相关研究
    在这个领域中,最近的相关研究包括使用不同的过程监督方法来增强LLMs的推理能力,如使用人工注释或基于蒙特卡罗的估计。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问