Teaching Large Language Models to Reason with Reinforcement Learning

2024年03月07日
  • 简介
    强化学习从人类反馈中学习(RLHF)已成为将LLM输出与人类偏好相一致的主要方法。受RLHF成功的启发,我们研究了多种从反馈中学习的算法(Expert Iteration、Proximal Policy Optimization(PPO)、Return-Conditioned RL)在提高LLM推理能力方面的表现。我们研究了启发式和通过学习奖励模型提供给LLM的稀疏和密集奖励。我们还从多个模型大小和初始化开始,包括有和没有监督微调(SFT)数据。总体而言,我们发现所有算法的表现相当,大多数情况下Expert Iteration表现最佳。令人惊讶的是,我们发现Expert Iteration的样本复杂度与PPO相似,从预训练的检查点收敛最多需要$10^6$个样本。我们研究了这个现象的原因,得出结论,在RL训练期间,模型未能显著地探索超出SFT模型已经产生的解决方案。此外,我们讨论了SFT训练期间maj@1和pass@96指标表现之间的权衡,以及相反的RL训练如何同时改善两者。最后,我们讨论了我们的发现对RLHF和RL在LLM微调中未来角色的影响。
  • 图表
  • 解决问题
    研究如何通过人类反馈来提高LLM的推理能力,比较多种学习算法的表现和样本复杂度,探究RL在LLM fine-tuning中的作用。
  • 关键思路
    通过比较多种学习算法的表现和样本复杂度,发现Expert Iteration算法的表现最好,而且其样本复杂度与PPO算法相似。同时,研究发现在RL训练中,模型很少探索超出SFT模型已有解决方案的范围。
  • 其它亮点
    实验比较了多种学习算法的表现和样本复杂度,发现Expert Iteration算法表现最好,而且样本复杂度与PPO算法相似;研究发现在RL训练中,模型很少探索超出SFT模型已有解决方案的范围;同时探讨了SFT训练中maj@1和pass@96指标之间的权衡以及RL训练如何同时提高这两个指标;论文提出的RLHF方法可以用于LLM的fine-tuning。
  • 相关研究
    与本文相关的研究包括:基于人类反馈的RLHF方法、LLM的fine-tuning方法、多种RL算法在不同场景下的表现等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论