RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

H Lee, S Phatale, H Mansoor, K Lu, T Mesnard, C Bishop, V Carbune, A Rastogi
[Google Research]

RLAIF:用AI反馈扩展人工反馈进行大型语言模型的强化学习

RLHF中的「人类」被取代,可行吗?谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)。

结果发现,RLAIF可以在不依赖人类标注员的情况下,产生与RLHF相当的改进效果,胜率50%。同时,谷歌研究再次证明了RLAIF和RLHF,比起监督微调(SFT)胜率都超过了70%。

  • 探索了使用离线大语言模型产生的AI反馈来替代人工反馈,称为RLAIF,与需要人工标注的RLHF进行了比较。
  • RLAIF和RLHF在摘要任务上都优于监督微调基线,相对基线,RLAIF的采用率高71%,RLHF的采用率高73%。
  • 两两比较中,RLAIF和RLHF生成的摘要被人类青睐的比例相近,约为50%。
  • 结果表明RLAIF可以在不需要人工标注的情况下达到与RLHF相近的表现,这为扩展规模提供了可能。
  • 改进语言模型对齐的技巧包括详细指示、推理链思维、更大模型,上下文学习和自洽性无助于提高。
  • 主要局限是仅评估一个任务,且未比较RLAIF与RLHF的货币成本。

动机:解决人工反馈强化学习的扩展性问题,通过利用AI反馈来提高效果。

方法:使用一种名为RLAIF(Reinforcement Learning from AI Feedback)的技术,利用AI反馈来替代人工标注,通过训练一个奖励模型和强化学习来优化语言模型。

优势:研究结果表明,RLAIF在摘要生成任务上能取得与RLHF(Reinforcement Learning from Human Feedback)相当的性能,并且不依赖于人工标注,具有可扩展性。

通过比较RLAIF和RLHF的性能,探讨了利用AI反馈替代人工反馈的可行性,提供了人工反馈强化学习的扩展性问题的潜在解决方案。

https://arxiv.org/abs/2309.00267 
 
图片
图片

 

更多可参考https://mp.weixin.qq.com/s/IeYBx2vvV4SzBc3G2B-D7Q

内容中包含的图片若涉及版权问题,请及时与我们联系删除