Robust Preference Optimization through Reward Model Distillation

2024年05月29日
  • 简介
    语言模型(LM)后训练(或对齐)涉及最大化从偏好注释中得出的奖励函数。直接偏好优化(DPO)是一种流行的离线对齐方法,它直接在偏好数据上训练策略,无需训练奖励模型或应用强化学习。然而,典型的偏好数据集每个偏好对只有一个或最多几个注释,这导致DPO过于自信地分配趋向于无限大的奖励。这经常导致退化的策略,有时甚至导致首选生成的概率为零。在这项工作中,我们分析了这种现象,并提出了蒸馏来获得更好的代理,以获取对生成对的真实偏好分布:我们训练LM产生的概率与在偏好数据上训练的奖励模型引起的分布相匹配。此外,为了考虑我们正在从中蒸馏的奖励模型的不确定性,我们针对一组奖励模型进行优化,这些模型作为一个整体,可能包括至少一个合理的偏好分布代理。我们的结果表明,从这样一组奖励模型中蒸馏可以提高对偏好注释中分布转移的鲁棒性,同时保持DPO的简单监督性质。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决DPO方法在使用单一或极少标注的偏好数据时,容易出现过度自信的问题,导致退化策略的情况。因此,本文提出了一种基于蒸馏的方法,以更好地近似偏好分布。
  • 关键思路
    本文的关键思路是通过训练语言模型产生的概率来匹配由偏好数据训练出来的奖励模型所诱导的分布,以获得更好的偏好分布近似,并通过优化奖励模型族来解决奖励模型不确定性的问题。
  • 其它亮点
    本文的实验结果表明,使用奖励模型族进行蒸馏可以提高对偏好数据分布偏移的鲁棒性,同时保留DPO方法的简单监督学习方式。本文还使用了多个数据集进行实验,并公开了代码。
  • 相关研究
    在相关研究方面,最近也有一些关于基于偏好数据的语言模型对齐的研究,如Preference-Based Language Generation (PBLG)和Preference Elicitation for Language Generation (PELG)。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问