- 简介直接偏好优化(DPO)最近成为改善强化学习与人类反馈(RLHF)的流行方法,从而导致改进了大型语言模型(LLM)的技术。然而,DPO的一个弱点在于其缺乏表征人类偏好多样性的能力。受Mallows偏好排序理论的启发,本文提出了一种新方法,即Mallows-DPO。该方法的一个独特特征是离散度指数,它反映了人类对提示的偏好分散程度。我们展示了现有的DPO模型可以简化为这个离散度指数的特殊情况,从而与Mallows-DPO统一。更重要的是,我们通过实验证明了如何使用这个离散度指数来增强DPO在广泛的基准任务中的性能,从合成的赌徒选择到可控的生成和对话,同时保持很好的泛化能力。
- 图表
- 解决问题本论文旨在解决Direct Preference Optimization (DPO)方法在人类反馈强化学习(RLHF)中缺乏表征人类偏好多样性的能力的问题。
- 关键思路该论文提出了一种新方法,Mallows-DPO,通过引入离散指数来反映人类偏好对提示的分散程度,从而增强DPO的性能。
- 其它亮点该论文通过实验证明了Mallows-DPO方法在多个基准任务中的性能优越性,并保持了很好的泛化能力。实验使用了多个数据集,并提供了开源代码。
- 与本论文相关的研究包括DPO以及基于Mallows模型的偏好排序方法的研究。
沙发等你来抢
去评论
评论
沙发等你来抢