OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework

2024年05月20日
  • 简介
    随着大型语言模型(LLMs)按比例定律不断增长,基于人类反馈的强化学习(RLHF)由于其出色的性能而受到了重视。然而,与预训练或微调单个模型不同,扩展基于人类反馈的强化学习(RLHF)以训练大型语言模型在四个模型之间存在协调挑战。我们提出了OpenRLHF,这是一个开源框架,可以实现有效的RLHF扩展。与现有的RLHF框架不同,OpenRLHF使用Ray、vLLM和DeepSpeed重新设计了模型的调度,利用改进的资源利用率和多样化的训练方法,超过70B参数。与Hugging Face无缝集成,OpenRLHF提供了一个开箱即用的解决方案,具有优化的算法和启动脚本,确保易于使用。OpenRLHF实现了RLHF、DPO、拒绝抽样和其他对齐技术。OpenRLHF的代码可在https://github.com/OpenLLMAI/OpenRLHF上获得,为最先进的LLM开发提供支持。
  • 图表
  • 解决问题
    本文试图解决大型语言模型训练中的协调问题,即如何有效地扩展从人类反馈中进行的强化学习,以训练超过70B参数的模型。
  • 关键思路
    本文提出了一个开源框架OpenRLHF,利用Ray、vLLM和DeepSpeed重新设计模型的调度,实现对RLHF的有效扩展,并实现了RLHF、DPO、拒绝抽样等对齐技术。
  • 其它亮点
    OpenRLHF框架实现了RLHF、DPO、拒绝抽样等对齐技术,与Hugging Face无缝集成,提供了优化的算法和启动脚本,易于使用。实验使用了哪些数据集,开源了代码。
  • 相关研究
    近期的相关研究包括:1. GPT-3的预训练和微调;2. 人类反馈的强化学习在其他领域的应用。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论