Group Robust Preference Optimization in Reward-free RLHF

2024年05月30日
  • 简介
    适应特定任务的大型语言模型(LLMs)通常需要通过强化学习和人类反馈(RLHF)在偏好数据上进行微调。虽然这些数据通常来自不同的标注者群体(例如不同的人口统计学、种族、公司团队等),但传统的RLHF方法采用“一刀切”的方法,即它们不加区分地假设和优化单一的偏好模型,因此不具有各种群体的独特特点和需求的鲁棒性。为了解决这个问题,我们提出了一种新颖的群体鲁棒偏好优化(GRPO)方法,可以使LLMs能够强有力地适应个人群体的偏好。我们的方法建立在无奖励直接偏好优化方法的基础上,但与以前的方法不同,它寻求一种最大化最坏情况群体性能的鲁棒策略。为了实现这一点,GRPO自适应地和顺序地加权不同群体的重要性,优先考虑累计损失更严重的群体。我们在对数线性策略类上理论上研究了GRPO的可行性和分析了其收敛性。通过使用基于不同群体的全局意见数据微调LLMs,我们显著提高了表现最差的群体的性能,减少了群体之间的损失不平衡,并且相对于非鲁棒基线提高了概率准确性。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决在使用强化学习和人类反馈进行大型语言模型的特定任务微调时,传统方法只能假定和优化单一的偏好模型,无法适应不同群体的独特特征和需求的问题。
  • 关键思路
    本文提出了一种名为GRPO的方法,通过自适应和顺序加权不同群体的重要性,优先考虑累积损失较差的群体,以此实现对大型语言模型进行群体偏好的鲁棒性优化。
  • 其它亮点
    本文通过使用多元群体全局意见数据对大型语言模型进行GRPO微调,显著提高了最差表现群体的性能,减少了群体之间的损失不平衡,并且相比于非鲁棒性基线,提高了概率准确性。
  • 相关研究
    在这个领域中,最近的相关研究包括使用强化学习进行语言模型微调的方法,以及使用多个偏好模型进行微调的方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问