RLAIF谷歌团队研究证明，AI标注已达人类水平

RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

H Lee, S Phatale, H Mansoor, K Lu, T Mesnard, C Bishop, V Carbune, A Rastogi
[Google Research]

RLAIF：用AI反馈扩展人工反馈进行大型语言模型的强化学习

RLHF中的「人类」被取代，可行吗？谷歌团队的最新研究提出了，用大模型替代人类，进行偏好标注，也就是AI反馈强化学习（RLAIF）。

结果发现，RLAIF可以在不依赖人类标注员的情况下，产生与RLHF相当的改进效果，胜率50%。同时，谷歌研究再次证明了RLAIF和RLHF，比起监督微调（SFT）胜率都超过了70%。

动机：解决人工反馈强化学习的扩展性问题，通过利用AI反馈来提高效果。

方法：使用一种名为RLAIF(Reinforcement Learning from AI Feedback)的技术，利用AI反馈来替代人工标注，通过训练一个奖励模型和强化学习来优化语言模型。

优势：研究结果表明，RLAIF在摘要生成任务上能取得与RLHF(Reinforcement Learning from Human Feedback)相当的性能，并且不依赖于人工标注，具有可扩展性。

通过比较RLAIF和RLHF的性能，探讨了利用AI反馈替代人工反馈的可行性，提供了人工反馈强化学习的扩展性问题的潜在解决方案。

内容中包含的图片若涉及版权问题，请及时与我们联系删除