Iterative Reasoning Preference Optimization

2024年04月30日
  • 简介
    最近,迭代偏好优化方法在一般的指导调整任务中表现良好,但在推理任务上通常进展不大(Yuan等人,2024年,Chen等人,2024年)。在本研究中,我们开发了一种迭代方法,通过优化导致正确答案的推理步骤的胜负来优化竞争生成的“思维链”(CoT)候选项之间的偏好。我们使用修改的DPO损失(Rafailov等人,2023年)进行训练,并增加了一个额外的负对数似然项,我们发现这是至关重要的。我们展示了这种方案的重复迭代可以提高推理能力。虽然只依赖于训练集中的示例,但我们的方法结果在Llama-2-70B-Chat的GSM8K、MATH和ARC-Challenge上的准确性不断提高,超过了不依赖于其他数据集的其他基于Llama-2的模型。例如,我们看到GSM8K的准确率从55.6%提高到81.6%,在32个样本中,多数投票的准确率为88.7%。
  • 解决问题
    论文旨在通过优化竞争生成的思维链(CoT)候选项之间的偏好,从而提高推理准确性。是否是一个新问题?
  • 关键思路
    论文提出了一种迭代优化方法,通过优化导致正确答案的推理步骤的胜负来优化CoT候选项之间的偏好。使用修改的DPO损失和额外的负对数似然项进行训练。结果表明,这种方法在GSM8K、MATH和ARC-Challenge上表现出了逐步提高的推理准确性,超过了其他不依赖于额外数据集的Llama-2模型。相比当前领域的研究状况,这篇论文的思路有新意。
  • 其它亮点
    论文在实验中使用了GSM8K、MATH和ARC-Challenge数据集,并使用修改的DPO损失和额外的负对数似然项进行训练。结果表明,这种方法在推理准确性上表现出逐步提高的趋势。值得关注的是,这种方法只依赖于训练集中的例子,并且在GSM8K上的准确性从55.6%提高到了81.6%,在32个样本中的多数表决下,准确率达到了88.7%。论文的方法和实验结果值得进一步研究。
  • 相关研究
    最近在该领域中的相关研究包括使用迭代优化方法进行指令调整任务的研究(Yuan等人,2024年,Chen等人,2024年),以及使用Llama-2进行推理的其他相关研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论