- 简介本文介绍了一种从人类反馈中学习的强化学习(RLHF)方法,通过使用从偏好数据派生的单一奖励模型来对齐语言模型和人类偏好。然而,这种方法忽视了从多个用户收集的数据中固有的丰富人类偏好的多样性。在本文中,我们首先推导了单一奖励RLHF对齐的不可能性结果,从而突显了它在表示多样化人类偏好方面的不足。为了提供一个公平的解决方案,我们通过期望最大化算法学习偏好分布的混合,并提出了一种受社会选择理论中平等原则启发的MaxMin对齐目标,以更好地表示多样化的人类偏好。我们阐明了我们提出的方法与分布鲁棒优化和一般效用RL的联系,从而突显了我们提出的解决方案的普适性和稳健性。我们在小规模(GPT-2)和大规模语言模型(Tulu2-7B)上提供了全面的实验结果,并展示了所提出方法在人类偏好多样化的情况下的有效性。我们的算法在胜率上的平均改进超过了16%,比传统的RLHF算法提高了胜率(准确率)超过33%,而不会影响大多数群体的表现,展示了我们方法的稳健性和公平性。我们指出,本文的发现不仅限于语言模型,还可推广到强化学习领域。
- 图表
- 解决问题本文旨在解决单一奖励RLHF方法忽略多样化人类偏好的问题,提出了一种公平的解决方案。
- 关键思路通过期望最大化算法学习偏好分布的混合,提出了MaxMin对齐目标的策略学习方法,以更好地表示多样化的人类偏好。
- 其它亮点本文提出的算法在小规模和大规模语言模型上进行了全面的实验,证明了其有效性和公平性。该算法在提高少数群体准确率的同时,不会损害多数群体的性能。
- 最近的相关研究包括:分布鲁棒优化和一般效用RL。
沙发等你来抢
去评论
评论
沙发等你来抢