Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs

2024年02月22日
  • 简介
    AI对齐以强化学习从人类反馈中的形式(RLHF)越来越被视为高性能大语言模型的关键因素。最近的文献将邻近策略优化(PPO)定位为RLHF的标准方法。然而,它涉及高计算成本和敏感的超参数调整。我们认为,导致PPO开发的大部分激励原则在RLHF中不太实际,并倡导一种保持并增加性能的计算成本较低的方法。我们重新审视了在RL环境中基于人类偏好的对齐公式。以简单为指导原则,我们表明,PPO的许多组成部分在RLHF环境中是不必要的,并且远比PPO和新提出的“无RL”的方法(如DPO和RAFT)更简单的REINFORCE样式的优化变体表现更好。我们的工作表明,对LLMs对齐特性的仔细适应使得在低成本下受益于在线RL优化成为可能。
  • 解决问题
    论文旨在探讨如何在大型语言模型中实现强化学习与人类反馈的对齐,提高性能,同时减少计算成本和超参数调整的需求。
  • 关键思路
    论文提出了一种简化的REINFORCE优化变体,相比PPO等方法减少了许多不必要的组件,同时在RLHF中保持了性能,甚至提高了性能。
  • 其它亮点
    实验结果表明,该方法在RLHF中比PPO和DPO等方法表现更好,并且计算成本更低。此外,该方法的简化设计也使得它更易于理解和实现。
  • 相关研究
    近期的相关研究包括《Proximal Policy Optimization Algorithms》、《Deep Reinforcement Learning that Matters》、《Deep Double Descent: Where Bigger Models and More Data Hurt》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论