Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence

简介

直接偏好优化（DPO）已成为直接且稳健地将大型语言模型（LLMs）与人类偏好对齐的重要算法，为复杂的基于人类反馈的强化学习（RLHF）提供了更为简单的替代方案。尽管其效力很有前途，但DPO面临一个明显的缺陷：“啰嗦性”，这是RLHF中也存在的一种常见的过优化现象。虽然以前的研究主要将啰嗦性归因于数据中存在的有偏标签，但我们认为这个问题也源于DPO中固有的算法长度依赖性。具体而言，我们认为DPO中所使用的选定和拒绝序列之间的序列级Kullback-Leibler（KL）散度差异会导致由于标记长度的变化而导致的奖励被高估或低估。在实证方面，我们利用具有不同标签长度的数据集来证明存在有偏奖励。然后，我们引入了一种有效的下采样方法，称为SamPO，以消除潜在的长度依赖性。我们的实验评估跨越了三种不同规模的LLMs和各种条件和开放式基准测试，突显了SamPO通过消除偏置奖励在减轻啰嗦性方面的有效性，相比DPO取得了5％至12％的改进。我们的代码可以在以下链接中找到：https://github.com/LuJunru/SamPO/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决Direct Preference Optimization（DPO）算法中的过度优化问题，该问题主要是由于算法的长度依赖性导致的。是否是一个新问题？
关键思路

论文提出了一种有效的下采样方法，名为SamPO，以消除潜在的长度依赖性，并通过去偏奖励实现对DPO算法的改进。相比当前领域的研究，这篇论文的思路有新意。
其它亮点

论文使用不同标签长度的数据集，证明了奖励的偏差存在。实验评估了三种不同规模的LLMs和多种条件和开放式基准测试，并展示了SamPO在消除过度优化方面的有效性。论文提供了开源代码。
相关研究

在这个领域中，最近的相关研究包括Reinforcement Learning from Human Feedback（RLHF），以及其他一些使用DPO算法的研究。

Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence

提问交流

提问交流