Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence

2024年06月16日
  • 简介
    直接偏好优化(DPO)已成为直接且稳健地将大型语言模型(LLMs)与人类偏好对齐的重要算法,为复杂的基于人类反馈的强化学习(RLHF)提供了更为简单的替代方案。尽管其效力很有前途,但DPO面临一个明显的缺陷:“啰嗦性”,这是RLHF中也存在的一种常见的过优化现象。虽然以前的研究主要将啰嗦性归因于数据中存在的有偏标签,但我们认为这个问题也源于DPO中固有的算法长度依赖性。具体而言,我们认为DPO中所使用的选定和拒绝序列之间的序列级Kullback-Leibler(KL)散度差异会导致由于标记长度的变化而导致的奖励被高估或低估。在实证方面,我们利用具有不同标签长度的数据集来证明存在有偏奖励。然后,我们引入了一种有效的下采样方法,称为SamPO,以消除潜在的长度依赖性。我们的实验评估跨越了三种不同规模的LLMs和各种条件和开放式基准测试,突显了SamPO通过消除偏置奖励在减轻啰嗦性方面的有效性,相比DPO取得了5%至12%的改进。我们的代码可以在以下链接中找到:https://github.com/LuJunru/SamPO/。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决Direct Preference Optimization(DPO)算法中的过度优化问题,该问题主要是由于算法的长度依赖性导致的。是否是一个新问题?
  • 关键思路
    论文提出了一种有效的下采样方法,名为SamPO,以消除潜在的长度依赖性,并通过去偏奖励实现对DPO算法的改进。相比当前领域的研究,这篇论文的思路有新意。
  • 其它亮点
    论文使用不同标签长度的数据集,证明了奖励的偏差存在。实验评估了三种不同规模的LLMs和多种条件和开放式基准测试,并展示了SamPO在消除过度优化方面的有效性。论文提供了开源代码。
  • 相关研究
    在这个领域中,最近的相关研究包括Reinforcement Learning from Human Feedback(RLHF),以及其他一些使用DPO算法的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问