HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback

2024年03月13日
  • 简介
    使用来自人工智能反馈的强化学习(RLAIF)相较于使用人类反馈的强化学习(RLHF)具有注释周期短、成本低等优点,使其在大型语言模型(LLM)训练的快速策略迭代期间非常高效。在RLAIF训练中,使用ChatGPT作为标注器为开放域提示提供反馈,我们观察到人类评估者对模型响应的偏好胜率增加,但评估者的满意度下降。分析表明,满意度下降主要是由于一些响应变得不太有用,特别是在正确性和真实性方面,突显了基本RLAIF的实际限制。本文提出了混合强化学习来自人工智能反馈(HRLAIF)。该方法增强了AI注释响应的准确性,使模型的有用性在训练过程中更加稳健。此外,它还采用AI进行红队行动,进一步提高了模型的无害性。人类评估结果表明,HRLAIF具有RLAIF提高人类偏好的能力,成本低,同时提高了响应的满意度。与RL之前的策略模型相比,它的满意度率提高了2.08%,有效解决了基本RLAIF后满意度率下降4.58%的问题。
  • 图表
  • 解决问题
    本论文旨在解决Reinforcement Learning from Human Feedback (RLHF)训练大型语言模型时成本高、耗时长的问题,提出了使用ChatGPT作为标注器进行Reinforcement Learning from AI Feedback (RLAIF)训练的方法,并进一步提出了Hybrid Reinforcement Learning from AI Feedback (HRLAIF)以解决RLAIF训练中出现的一些问题。
  • 关键思路
    本论文的关键思路是通过使用AI作为标注器,提高训练效率,并进一步提出了HRLAIF方法以提高AI标注的准确性和响应的有用性。
  • 其它亮点
    论文通过实验验证了使用ChatGPT作为标注器进行RLAIF训练可以提高模型响应的人类偏好,但同时会降低人类对响应的满意度,进一步提出了HRLAIF方法以解决这一问题。HRLAIF不仅提高了响应的有用性,还通过使用AI进行Red Teaming提高了模型的安全性。实验使用了ChatGPT作为标注器,并在多个数据集上进行了测试,实验结果表明HRLAIF可以在保证训练效率的同时提高响应的满意度。
  • 相关研究
    近期的相关研究包括使用RLHF进行大型语言模型训练的研究,以及使用其他AI技术进行标注的相关研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论