PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences

向作者提问

NEW

简介

使用原始的网络规模数据预训练的大型基础模型需要进行广泛的与人类偏好的对齐，才能够方便地部署。通常，这种对齐是通过从人类那里收集大量成对比较（“您更喜欢输出A还是B？”）并使用Bradley-Terry-Luce（BTL）模型学习奖励模型或策略来完成的，作为人类潜在内在偏好的代理。这些方法通常存在一个假设，即所有人都共享一种普遍的偏好，缺乏适应意见和偏好的多样性的灵活性。在这项工作中，我们提出了PAL框架，该框架用于建模与现有预训练策略相辅相成的人类偏好，从根本上融合多样性。我们建议使用理想点模型作为一种视角来使用偏好比较进行对齐。结合我们的新颖重新制定和使用混合建模，我们的框架捕捉到了人口偏好的多样性，同时学习了跨不同偏好的共同偏好潜在空间，可以少量泛化到新的、未见过的用户。我们的方法使我们能够使用大型基础模型的倒数第二层表示和简单的MLP层来学习与现有大型最先进奖励模型相当的奖励函数，从而显着增强奖励建模的效率。我们展示了PAL在1）使用摘要数据集的语言模型；2）使用Pick-a-Pic数据集的图像生成模型；3）使用Anthropic Personas生成的新的半合成异质数据集上，与强基线相比实现了有竞争力的奖励模型准确性。最后，我们的实验还凸显了当前偏好数据集的缺陷，这些数据集使用严格的规则创建，洗去了异质性，并呼吁采用更细致的数据收集方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

PAL框架试图解决的问题是，大型预训练模型需要进行人类偏好的广泛对齐才能进行部署，但现有方法假定所有人都有相同的偏好，缺乏适应多样性的能力。该论文提出了一种新的框架来解决这个问题。
关键思路

该论文的关键思路是使用理想点模型来捕捉人类偏好的多样性，并使用混合建模来同时学习不同偏好之间的共同偏好。这个框架可以使用大型预训练模型的中间层表示和简单的MLP层来学习奖励函数，从而提高奖励建模的效率。
其它亮点

该论文的实验结果表明，该框架在三个数据集上的奖励建模精度与现有的大型奖励模型相当。此外，该论文还指出了当前偏好数据集的缺陷，并呼吁采用更加细致的数据收集方法。该论文还提供了开源代码。
相关研究

最近的相关研究包括使用BTL模型进行奖励建模的方法，以及使用对抗训练的方法来学习奖励函数。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问