Iterative Reasoning Preference Optimization

简介

最近已经显示出迭代偏好优化方法在一般的指令调整任务中表现良好，但通常在推理任务上改进较少(Yuan等人，2024年，Chen等人，2024年)。在本研究中，我们开发了一种迭代方法，通过优化导致正确答案的推理步骤的胜利与失败来优化竞争生成的“思维链”(CoT)候选项之间的偏好。我们使用修改后的DPO损失(Rafailov等人，2023年)进行训练，并加入额外的负对数似然项，我们发现这一点非常关键。我们展示了这种方案的重复迭代中推理的改进。虽然只依赖于训练集中的示例，但我们的方法使得Llama-2-70B-Chat在GSM8K上的准确性从55.6%提高到81.6%(在32个样本中的多数投票为88.7%)，在MATH上从12.5%提高到20.8%，在ARC-Challenge上从77.8%提高到86.7%，这超过了其他不依赖于额外来源数据集的基于Llama-2的模型。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

优化生成的思维链路候选者之间的竞争偏好，以提高推理准确性。
关键思路

通过优化赢得或输掉导致正确答案的推理步骤之间的偏好，使用迭代方法提高推理准确性。
其它亮点

论文使用修改的DPO损失和额外的负对数似然项进行训练，并展示了该方法在不依赖其他数据集的情况下，对Llama-2-70B-Chat的GSM8K、MATH和ARC-Challenge数据集的准确率均有提高。
相关研究

最近的相关研究包括Yuan等人和Chen等人的工作，但这些方法在推理任务上的表现并不理想。

Iterative Reasoning Preference Optimization

提问交流

提问交流