3D-Properties: Identifying Challenges in DPO and Charting a Path Forward

2024年06月11日
  • 简介
    最近,将大型语言模型(LLMs)与人类偏好进行对齐引起了极大的关注,其中经典但代价高昂的RLHF-PPO和简单直接的直接偏好优化(DPO)是两个例子。尽管DPO的效率很高,但它很少被用于最先进的生产级LLMs中,这意味着它存在潜在的病态。在这项工作中,我们重新审视了DPO的实证功效,并与RLHF-PPO进行了系统比较。我们通过对精心设计的玩具模型和数学问题解决和指令跟随等任务中的实用LLMs进行实验,确定了DPO学习结果的三个特性:被拒绝响应的可能性急剧下降、降解为LLM未学习和对未见过的响应的分散效应。这些发现与相关工作所做的一些观察本质上是相连的,我们还为它们提供了一个合理的理论解释。因此,我们提出了简单的规则化方法来减轻由于三维特性引起的问题,提高DPO的训练稳定性和最终性能。我们的贡献还包括调查成对偏好数据的分布如何影响DPO的有效性。我们希望这项工作能够为缩小无奖励偏好学习方法和有奖励偏好学习方法之间的差距提供研究方向。
  • 图表
  • 解决问题
    本论文旨在重新审视直接优化偏好(DPO)算法的实证效力,并与RLHF-PPO算法进行系统比较,以缩小无奖励偏好学习方法和有奖励偏好学习方法之间的差距。
  • 关键思路
    本文对DPO算法的学习结果进行全面考察,发现其存在三个问题:被拒绝响应的似然性急剧下降、LLM的退化和对未见过的响应的扩散效应。为此,提出了简单的正则化方法以缓解这些问题,并改善DPO的训练稳定性和最终性能。
  • 其它亮点
    本文通过玩具模型和实际LLMs上的实验,展示了DPO算法的局限性和提出的正则化方法的有效性。此外,还研究了偏好数据配对的分布如何影响DPO的有效性。
  • 相关研究
    与本文相关的研究包括RLHF-PPO算法和其他无奖励偏好学习方法,如GAIL和AIRL。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论