Mallows-DPO: Fine-Tune Your LLM with Preference Dispersions

2024年05月23日
  • 简介
    直接偏好优化(DPO)最近成为改善强化学习与人类反馈(RLHF)的流行方法,从而导致改进了大型语言模型(LLM)的技术。然而,DPO的一个弱点在于其缺乏表征人类偏好多样性的能力。受Mallows偏好排序理论的启发,本文提出了一种新方法,即Mallows-DPO。该方法的一个独特特征是离散度指数,它反映了人类对提示的偏好分散程度。我们展示了现有的DPO模型可以简化为这个离散度指数的特殊情况,从而与Mallows-DPO统一。更重要的是,我们通过实验证明了如何使用这个离散度指数来增强DPO在广泛的基准任务中的性能,从合成的赌徒选择到可控的生成和对话,同时保持很好的泛化能力。
  • 图表
  • 解决问题
    本论文旨在解决Direct Preference Optimization (DPO)方法在人类反馈强化学习(RLHF)中缺乏表征人类偏好多样性的能力的问题。
  • 关键思路
    该论文提出了一种新方法,Mallows-DPO,通过引入离散指数来反映人类偏好对提示的分散程度,从而增强DPO的性能。
  • 其它亮点
    该论文通过实验证明了Mallows-DPO方法在多个基准任务中的性能优越性,并保持了很好的泛化能力。实验使用了多个数据集,并提供了开源代码。
  • 相关研究
    与本论文相关的研究包括DPO以及基于Mallows模型的偏好排序方法的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论