OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework

2024年05月20日
  • 简介
    随着大型语言模型(LLMs)按比例定律不断增长,由于其出色的性能,来自人类反馈的强化学习(RLHF)已经引起了重视。然而,与预训练或微调单个模型不同,通过人类反馈扩展强化学习(RLHF)以训练大型语言模型存在跨四个模型的协调挑战。我们提出了OpenRLHF,这是一个开源框架,可以实现高效的RLHF扩展。与现有的RLHF框架不同,OpenRLHF使用Ray、vLLM和DeepSpeed重新设计了模型的调度,以实现超过70B参数的模型的训练,利用了改进的资源利用率和多样化的训练方法。OpenRLHF与Hugging Face无缝集成,提供了一个优化的算法和启动脚本的开箱即用解决方案,确保易用性。OpenRLHF实现了RLHF、DPO、拒绝采样和其他对齐技术。OpenRLHF的代码可在https://github.com/OpenLLMAI/OpenRLHF上获得,为最先进的LLM开发提供支持。
  • 图表
  • 解决问题
    论文试图通过OpenRLHF框架解决大语言模型的RLHF训练中的协调挑战问题,以实现更高效的RLHF扩展,提高性能表现。
  • 关键思路
    OpenRLHF通过重新设计模型的调度方式,利用Ray、vLLM和DeepSpeed等工具,实现对大型模型的RLHF训练的高效扩展,并实现了RLHF、DPO、拒绝抽样等对齐技术。
  • 其它亮点
    OpenRLHF是一个开源框架,与Hugging Face无缝集成,提供优化算法和启动脚本,易于使用。论文还使用了多个数据集进行实验,并提供了开源代码,值得进一步研究。
  • 相关研究
    近期的相关研究包括《Scalable and Efficient Neural Dialogue State Tracking》、《Reinforcement Learning with Human Feedback in Dialog Systems: A Review》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论