Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

简介

“从人类反馈中学习的强化学习（RLHF）”是目前最广泛使用的方法，用于将大型语言模型（LLMs）与人类偏好对齐。现有的RLHF方法可以大致分为基于奖励和无奖励两类。新颖的应用程序，如ChatGPT和Claude，利用基于奖励的方法，首先学习奖励模型，然后应用演员-评论家算法，例如Proximal Policy Optimization（PPO）。然而，在学术基准测试中，最先进的结果通常是通过无奖励方法实现的，例如Direct Preference Optimization（DPO）。DPO真的比PPO优越吗？为什么PPO在这些基准测试中表现不佳？在本文中，我们首先对DPO的算法特性进行了理论和实证研究，并显示DPO可能具有根本性的限制。此外，我们还全面检查了PPO，并揭示了在微调LLMs时取得最佳性能的关键因素。最后，我们在各种RLHF测试基准上对DPO和PPO进行基准测试，从对话到代码生成不等。实验结果表明，PPO能够在所有情况下超越其他对齐方法，并在具有挑战性的代码竞赛中实现最先进的结果。
图表
解决问题

本论文旨在比较reward-based和reward-free两种方法在大型语言模型对齐中的表现，探究PPO在学术基准测试中表现不佳的原因。
关键思路

论文首先对DPO和PPO进行理论和实验研究，发现DPO存在局限性，而PPO的最佳表现与超参数、训练数据的多样性和数量等因素有关。最后在对话和代码生成等多个领域的RLHF测试中，论文发现PPO的表现超过其他方法，取得了最好的结果。
其它亮点

论文的实验设计充分，使用了多个数据集，而且开源了代码。此外，论文对PPO表现不佳的原因进行了深入分析，并提出了优化方案。值得进一步研究。
相关研究

在这个领域中，最近的相关研究包括《Preference-based Policy Optimization》、《Learning from Human Preferences with Bayesian Neural Networks》等。

Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

评论