Step-level Value Preference Optimization for Mathematical Reasoning

简介

直接偏好优化（DPO）使用隐式奖励模型已被证明是微调偏好对齐的大型语言模型（LLMs）的有效替代强化学习从人类反馈（RLHF）的方法。然而，对于复杂的多步推理任务，如数学推理，响应的总体偏好注释并不能完全捕捉模型输出的细粒度质量。为了解决这个限制，我们引入了一种新的算法，称为步骤级值偏好优化（SVPO）。我们的方法采用蒙特卡罗树搜索（MCTS）来自动注释多步推理的步骤级偏好。此外，从学习排序的角度出发，我们训练一个显式值模型来复制隐式奖励模型的行为，补充标准的偏好优化。这个值模型使得LLM在推理过程中以最小的代价生成更高的奖励响应。实验结果表明，我们的方法在领域内和领域外的数学推理基准上实现了最先进的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

SVPO: 一种解决多步推理任务中细粒度质量问题的算法
关键思路

SVPO算法使用蒙特卡罗树搜索（MCTS）自动注释多步推理的步骤级偏好，并训练一个显式价值模型来补充标准的偏好优化。
其它亮点

SVPO算法在数学推理基准测试中取得了最先进的性能，使用了MCTS自动注释步骤级偏好，并训练了一个显式价值模型来提高模型输出的质量。
相关研究

最近的相关研究包括DPO和RLHF。

Step-level Value Preference Optimization for Mathematical Reasoning

提问交流

提问交流