复杂的多步推理任务,例如解决数学问题或生成代码,即使是最先进的大型语言模型(LLMs)也仍然面临重大障碍。使用结果奖励模型(ORM)验证LLM输出是一种标准推理时间技术,旨在提高LLM的推理性能。然而,这仍然无法满足具有冗长或多跳推理链的推理任务,其中中间结果既没有得到适当的奖励也没有受到惩罚。过程监督通过在推理过程中分配中间奖励来解决这个问题。迄今为止,用于收集过程监督数据的方法要么依赖于人工注释,要么依赖于每步蒙特卡罗估计,这两种方法都无法扩展,从而阻碍了这种技术的广泛应用。为了解决这个挑战,我们提出了一种名为OmegaPRM的新型分而治之的蒙特卡罗树搜索(MCTS)算法,旨在有效收集高质量的过程监督数据。该算法通过二分搜索迅速确定Chain of Thought(CoT)中的第一个错误,并平衡正面和负面的例子,从而确保了效率和质量。因此,我们能够收集超过150万个过程监督注释来训练过程奖励模型(PRM)。利用这种完全自动化的过程监督以及加权自一致性算法,我们提高了经过指导的Gemini Pro模型的数学推理性能,在MATH基准测试中实现了69.4%的成功率,相对于51%的基线模型性能提高了36%。此外,整个过程没有任何人类干预,使我们的方法在财务和计算上都比现有方法具有成本效益。
提问交流