RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
H Lee, S Phatale, H Mansoor, K Lu, T Mesnard, C Bishop, V Carbune, A Rastogi
[Google Research]
RLAIF:用AI反馈扩展人工反馈进行大型语言模型的强化学习
RLHF中的「人类」被取代,可行吗?谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)。
结果发现,RLAIF可以在不依赖人类标注员的情况下,产生与RLHF相当的改进效果,胜率50%。同时,谷歌研究再次证明了RLAIF和RLHF,比起监督微调(SFT)胜率都超过了70%。
-
探索了使用离线大语言模型产生的AI反馈来替代人工反馈,称为RLAIF,与需要人工标注的RLHF进行了比较。 -
RLAIF和RLHF在摘要任务上都优于监督微调基线,相对基线,RLAIF的采用率高71%,RLHF的采用率高73%。 -
两两比较中,RLAIF和RLHF生成的摘要被人类青睐的比例相近,约为50%。 -
结果表明RLAIF可以在不需要人工标注的情况下达到与RLHF相近的表现,这为扩展规模提供了可能。 -
改进语言模型对齐的技巧包括详细指示、推理链思维、更大模型,上下文学习和自洽性无助于提高。 -
主要局限是仅评估一个任务,且未比较RLAIF与RLHF的货币成本。
动机:解决人工反馈强化学习的扩展性问题,通过利用AI反馈来提高效果。
方法:使用一种名为RLAIF(Reinforcement Learning from AI Feedback)的技术,利用AI反馈来替代人工标注,通过训练一个奖励模型和强化学习来优化语言模型。
优势:研究结果表明,RLAIF在摘要生成任务上能取得与RLHF(Reinforcement Learning from Human Feedback)相当的性能,并且不依赖于人工标注,具有可扩展性。
通过比较RLAIF和RLHF的性能,探讨了利用AI反馈替代人工反馈的可行性,提供了人工反馈强化学习的扩展性问题的潜在解决方案。
https://arxiv.org/abs/2309.00267
更多可参考https://mp.weixin.qq.com/s/IeYBx2vvV4SzBc3G2B-D7Q
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢