Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model

2024年03月28日
  • 简介
    大型语言模型(LLMs)因其处理和生成自然语言的能力而变得越来越受欢迎。然而,由于它们是在大规模文本数据集上训练的,LLMs 可能会继承有害的偏见,并产生与人类价值观不一致的输出。本文研究了两种主要的 LLM 对齐方法:基于人类反馈的强化学习(RLHF)和基于对比学习的方法,如直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新的方法 MPO(混合偏好优化),该方法缓解了两种方法的弱点。具体而言,我们提出了一个两阶段的训练过程:首先在一个简单的数据集上训练 DPO,然后在 DPO 模型作为参考模型的情况下,在一个困难的数据集上执行 RLHF。这里,简单和困难的集合是由一个训练良好的奖励模型构建的,将响应对分为具有大奖励差距的对(简单)和具有小差距的对(困难)。第一阶段使我们能够快速获得相对最优的策略(LLM)模型,而第二阶段通过在线 RLHF 对 LLM 进行改进,从而缓解了与 DPO 相关的分布偏移问题。在两个公共对齐数据集 HH-RLHF 和 TLDR 上进行了实验,证明了 MPO 的有效性,无论是从 GPT4 还是人类评估的角度。
  • 图表
  • 解决问题
    解决问题的问题是如何对大型语言模型进行对齐,以避免其产生有害偏差和不符合人类价值观的输出?
  • 关键思路
    提出了一种混合偏好优化(MPO)方法,该方法结合了强化学习和对比学习的优点,通过两个阶段的训练来优化大型语言模型的对齐性。首先在易数据集上训练DPO模型,然后在难数据集上使用DPO模型作为参考模型进行RLHF模型的在线训练,以缓解DPO中的分布偏移问题。
  • 其它亮点
    论文使用两个公共数据集HH-RLHF和TLDR进行实验,证明了MPO方法的有效性。此外,论文还提出了一种基于奖励模型构建易数据集和难数据集的方法。
  • 相关研究
    最近的相关研究包括:1)使用对抗训练进行大型语言模型的对齐;2)使用人类反馈进行大型语言模型的对齐。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论