- 简介“从人类反馈中学习的强化学习(RLHF)”是目前最广泛使用的方法,用于将大型语言模型(LLMs)与人类偏好对齐。现有的RLHF方法可以大致分为基于奖励和无奖励两类。新颖的应用程序,如ChatGPT和Claude,利用基于奖励的方法,首先学习奖励模型,然后应用演员-评论家算法,例如Proximal Policy Optimization(PPO)。然而,在学术基准测试中,最先进的结果通常是通过无奖励方法实现的,例如Direct Preference Optimization(DPO)。DPO真的比PPO优越吗?为什么PPO在这些基准测试中表现不佳?在本文中,我们首先对DPO的算法特性进行了理论和实证研究,并显示DPO可能具有根本性的限制。此外,我们还全面检查了PPO,并揭示了在微调LLMs时取得最佳性能的关键因素。最后,我们在各种RLHF测试基准上对DPO和PPO进行基准测试,从对话到代码生成不等。实验结果表明,PPO能够在所有情况下超越其他对齐方法,并在具有挑战性的代码竞赛中实现最先进的结果。
- 图表
- 解决问题本论文旨在比较reward-based和reward-free两种方法在大型语言模型对齐中的表现,探究PPO在学术基准测试中表现不佳的原因。
- 关键思路论文首先对DPO和PPO进行理论和实验研究,发现DPO存在局限性,而PPO的最佳表现与超参数、训练数据的多样性和数量等因素有关。最后在对话和代码生成等多个领域的RLHF测试中,论文发现PPO的表现超过其他方法,取得了最好的结果。
- 其它亮点论文的实验设计充分,使用了多个数据集,而且开源了代码。此外,论文对PPO表现不佳的原因进行了深入分析,并提出了优化方案。值得进一步研究。
- 在这个领域中,最近的相关研究包括《Preference-based Policy Optimization》、《Learning from Human Preferences with Bayesian Neural Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢