- 简介数学推理对于大型语言模型(LLMs)来说是一个重大挑战,因为它需要精确且广泛的推理链以确保准确性。确保每个推理步骤的正确性至关重要。为了解决这个问题,我们旨在通过学习人类反馈来增强LLMs的鲁棒性和事实性。然而,直接偏好优化(DPO)对于长链数学推理的效果有限,因为采用DPO的模型难以识别错误答案中的详细错误。这个限制来自于缺乏细粒度的过程监督。我们提出了一种简单、有效且数据高效的方法,称为Step-DPO,它将单个推理步骤作为优化偏好的单元,而不是整体评估答案。此外,我们开发了一个数据构建流程来支持Step-DPO,从而创建了一个包含10K个步骤偏好对的高质量数据集。我们还观察到,在DPO中,自动生成的数据比人类或GPT-4生成的数据更有效,因为后者具有超出分布的特性。我们的研究结果表明,仅有10K个偏好数据对和不到500个Step-DPO训练步骤可以为具有超过70B参数的模型带来近3%的准确率提升。值得注意的是,将Step-DPO应用于Qwen2-72B-Instruct时,在MATH和GSM8K的测试集上分别取得了70.8%和94.0%的得分,超过了一系列闭源模型,包括GPT-4-1106、Claude-3-Opus和Gemini-1.5-Pro。我们的代码、数据和模型可在https://github.com/dvlab-research/Step-DPO上获得。
- 图表
- 解决问题本论文试图通过学习人类反馈来提高大型语言模型(LLMs)在数学推理方面的鲁棒性和事实性,但是直接偏好优化(DPO)在长链数学推理中表现有限,因为模型很难识别错误答案中的详细错误。
- 关键思路本文提出了一种称为Step-DPO的简单、有效和数据高效的方法,将单个推理步骤作为偏好优化的单位而不是整体评估答案,从而提高了DPO的精细过程监督。
- 其它亮点本文构建了一个数据管道,使得可以创建一个包含10K步骤偏好对的高质量数据集。研究发现,在DPO中,自动生成的数据比人类或GPT-4生成的数据更有效,因为后者具有超出分布的特性。实验结果表明,只需要10K偏好数据对和少于500个Step-DPO训练步骤,就可以在具有70B参数的模型上获得近3%的准确度提升。此外,Step-DPO在Qwen2-72B-Instruct上的应用,在MATH和GSM8K的测试集上分别达到了70.8%和94.0%的得分,超过了一系列闭源模型,包括GPT-4-1106、Claude-3-Opus和Gemini-1.5-Pro。
- 与此相关的研究包括直接偏好优化(DPO)和其他基于人类反馈的方法,如人类模仿学习和人类基础知识注入。
沙发等你来抢
去评论
评论
沙发等你来抢