Multi-objective Reinforcement learning from AI Feedback

2024年06月11日
  • 简介
    本文提出了一种新颖的方法,名为基于AI反馈的多目标强化学习(MORLAIF),用于改善使用强化学习从AI反馈(RLAIF)训练语言模型的对齐和性能。与标准方法不同的是,标准方法训练一个单一的偏好模型来代表所有人类偏好,而MORLAIF将这个任务分解成多个更简单的原则,例如毒性、事实性和谄媚性。使用来自GPT-3.5-Turbo的反馈为每个原则单独训练偏好模型。然后,使用不同的标量化函数将这些偏好模型分数组合起来,为目标语言模型的Proximal Policy Optimization(PPO)训练提供奖励信号。我们的实验表明,MORLAIF优于标准RLAIF基线,并且可以使用较小的语言模型来对齐更大的语言模型。令人惊讶的是,标量化函数的选择似乎并不显著影响结果。
  • 图表
  • 解决问题
    本文旨在提出一种新方法,即多目标强化学习从AI反馈中学习(MORLAIF),以改善使用强化学习从AI反馈(RLAIF)训练的语言模型的性能和对齐问题。相比于标准方法,该方法将任务分解为多个简单的原则,并为每个原则单独训练偏好模型,以使用GPT-3.5-Turbo的反馈来表示人类偏好。
  • 关键思路
    MORLAIF通过将任务分解为多个原则并为每个原则单独训练偏好模型,从而提高了使用RLAIF训练的语言模型的性能和对齐性。该方法使用不同的标量化函数将偏好模型分数组合起来,以为目标语言模型提供奖励信号。
  • 其它亮点
    本文的实验表明,MORLAIF优于标准RLAIF基线,并且可以使用较小的语言模型来对齐更大的语言模型。值得注意的是,标量化函数的选择似乎并不会显著影响结果。
  • 相关研究
    相关研究包括使用强化学习训练语言模型的其他方法,如PPO和Actor-Critic方法。还有其他使用多目标优化来解决强化学习问题的研究,例如使用多目标遗传算法和多目标进化策略。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论