Disentangling Length from Quality in Direct Preference Optimization

2024年03月28日
  • 简介
    强化学习从人类反馈中学习(RLHF)是最近大型语言模型取得成功的关键组成部分。然而,RLHF已知会利用人类偏好中的偏见,如冗长。一个格式良好、雄辩的答案通常会受到用户更高的评价,即使它不太有用和客观。在经典RLHF文献中,已经开发了一些方法来控制这些偏见,但对于直接对齐算法(如直接偏好优化(DPO)),这个问题相对较少探讨。与经典RLHF不同,DPO不会训练单独的奖励模型或直接使用强化学习,因此以前开发的控制冗长的方法不能直接应用于这种情况。我们的工作做出了几个贡献。我们首次研究了DPO设置中的长度问题,显示DPO中存在显著的剥削,并将其与分布外引导联系起来。然后,我们开发了一种基于原则但简单的正则化策略,可以防止长度剥削,同时仍然保持模型质量的改进。我们在摘要和对话的数据集上展示了这些效果,即使在GPT4评分员的众所周知的冗长偏见下,我们仍然可以实现高达20%的胜率改进。
  • 图表
  • 解决问题
    解决Direct Preference Optimization (DPO)中的长度问题,防止人类反馈偏好的利用
  • 关键思路
    通过引入正则化策略来防止长度问题的利用,同时保持模型质量的提高
  • 其它亮点
    实验结果表明,该正则化策略可以在控制长度的情况下提高模型的胜率,达到20%的提升。研究还发现长度问题与超出分布的引导有关。
  • 相关研究
    前人的研究主要针对经典的RLHF方法中的长度问题进行控制,而本文则是第一次在DPO这一领域进行相关研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论