Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

2024年04月16日
  • 简介
    “从人类反馈中学习的强化学习(RLHF)”是目前最广泛使用的方法,用于将大型语言模型(LLMs)与人类偏好对齐。现有的RLHF方法可以大致分为基于奖励和无奖励两类。新颖的应用程序,如ChatGPT和Claude,利用基于奖励的方法,首先学习奖励模型,然后应用演员-评论家算法,例如Proximal Policy Optimization(PPO)。然而,在学术基准测试中,最先进的结果通常是通过无奖励方法实现的,例如Direct Preference Optimization(DPO)。DPO真的比PPO优越吗?为什么PPO在这些基准测试中表现不佳?在本文中,我们首先对DPO的算法特性进行了理论和实证研究,并显示DPO可能具有根本性的限制。此外,我们还全面检查了PPO,并揭示了在微调LLMs时取得最佳性能的关键因素。最后,我们在各种RLHF测试基准上对DPO和PPO进行基准测试,从对话到代码生成不等。实验结果表明,PPO能够在所有情况下超越其他对齐方法,并在具有挑战性的代码竞赛中实现最先进的结果。
  • 图表
  • 解决问题
    本论文旨在比较reward-based和reward-free两种方法在大型语言模型对齐中的表现,探究PPO在学术基准测试中表现不佳的原因。
  • 关键思路
    论文首先对DPO和PPO进行理论和实验研究,发现DPO存在局限性,而PPO的最佳表现与超参数、训练数据的多样性和数量等因素有关。最后在对话和代码生成等多个领域的RLHF测试中,论文发现PPO的表现超过其他方法,取得了最好的结果。
  • 其它亮点
    论文的实验设计充分,使用了多个数据集,而且开源了代码。此外,论文对PPO表现不佳的原因进行了深入分析,并提出了优化方案。值得进一步研究。
  • 相关研究
    在这个领域中,最近的相关研究包括《Preference-based Policy Optimization》、《Learning from Human Preferences with Bayesian Neural Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论