Mallows-DPO: Fine-Tune Your LLM with Preference Dispersions

简介

直接偏好优化（DPO）最近成为改善强化学习与人类反馈（RLHF）的流行方法，从而导致改进了大型语言模型（LLM）的技术。然而，DPO的一个弱点在于其缺乏表征人类偏好多样性的能力。受Mallows偏好排序理论的启发，本文提出了一种新方法，即Mallows-DPO。该方法的一个独特特征是离散度指数，它反映了人类对提示的偏好分散程度。我们展示了现有的DPO模型可以简化为这个离散度指数的特殊情况，从而与Mallows-DPO统一。更重要的是，我们通过实验证明了如何使用这个离散度指数来增强DPO在广泛的基准任务中的性能，从合成的赌徒选择到可控的生成和对话，同时保持很好的泛化能力。
图表
解决问题

本论文旨在解决Direct Preference Optimization (DPO)方法在人类反馈强化学习（RLHF）中缺乏表征人类偏好多样性的能力的问题。
关键思路

该论文提出了一种新方法，Mallows-DPO，通过引入离散指数来反映人类偏好对提示的分散程度，从而增强DPO的性能。
其它亮点

该论文通过实验证明了Mallows-DPO方法在多个基准任务中的性能优越性，并保持了很好的泛化能力。实验使用了多个数据集，并提供了开源代码。
相关研究

与本论文相关的研究包括DPO以及基于Mallows模型的偏好排序方法的研究。