- 简介偏好学习算法(例如RLHF和DPO)经常用于引导LLM生成更受人类喜爱的生成物,但我们对它们的内部运作仍知之甚少。在这项工作中,我们研究了偏好学习训练模型将更喜欢的输出分配更高的可能性,而不是不太喜欢的输出,通过$\textit{排名准确性}$来衡量的传统智慧。令人惊讶的是,我们发现大多数最先进的偏好调整模型在常见的偏好数据集上的排名准确性都不到60%。我们进一步推导了偏好调整LLM将实现的$\textit{理想排名准确性}$,如果它完美地优化了DPO或RLHF目标。我们证明了现有模型存在显着的$\textit{对齐差距}$——即观察到的和理想的排名准确性之间的差距。我们将这种差异归因于DPO目标,它在实证和理论上都不适合修复参考模型中的轻微排名错误,并导出了一个简单而有效的公式来量化学习给定偏好数据点的难度。最后,我们证明了排名准确性与经验上流行的胜率度量强烈相关,当模型接近目标模型时,这进一步阐明了在线(例如RLHF)和离线(例如DPO)偏好学习算法之间的差异。
- 图表
- 解决问题本文旨在研究偏好学习算法在引导LLMs生成更受人类喜爱的输出时的内部运作方式,特别是关注算法的排名精度。研究发现,大多数最先进的偏好调整模型在常见的偏好数据集上的排名精度不到60%,存在较大的排名误差。文章还推导了理想排名精度的概念,发现现有的模型存在显著的对齐差距,即观察到的排名精度与理想排名精度之间的差距。文章认为这种差距是由于DPO目标的实证和理论上的不适应性导致的,并提出了一种简单有效的公式来量化学习给定偏好数据点的难度。最后,文章证明了排名精度与流行的胜率度量之间存在强烈的相关性。
- 关键思路本文研究了偏好学习算法在引导LLMs生成更受人类喜爱的输出时的内部运作方式,特别是关注算法的排名精度。文章发现现有的模型存在显著的对齐差距,即观察到的排名精度与理想排名精度之间的差距,这种差距是由于DPO目标的实证和理论上的不适应性导致的。文章提出了一种简单有效的公式来量化学习给定偏好数据点的难度。
- 其它亮点本文的实验结果表明,大多数最先进的偏好调整模型在常见的偏好数据集上的排名精度不到60%,存在较大的排名误差。文章还推导了理想排名精度的概念,并提出了一种简单有效的公式来量化学习给定偏好数据点的难度。文章证明了排名精度与流行的胜率度量之间存在强烈的相关性。
- 在最近的相关研究中,也有一些研究关注了偏好学习算法的排名精度,例如《Preference-based Reinforcement Learning: A Comprehensive Survey》、《Preference Elicitation for Inverse Reinforcement Learning: A Review》等。
沙发等你来抢
去评论
评论
沙发等你来抢