- 简介奖励模型(Reward models, RMs)对于使大型语言模型(LLMs)与人类偏好保持一致至关重要。它们使用偏好数据集进行训练,其中每个示例包括一个输入提示、两个响应和一个偏好标签。由于筛选高质量的人工标注偏好数据集既费时又昂贵,因此人们经常依赖现有的强大LLMs进行偏好标签生成。这可能会引入噪声并阻碍RM训练。在本研究中,我们提出了一种新的合成偏好数据生成范例RMBoost,以提高奖励模型的质量。与传统方法不同,RMBoost先生成一个响应并选择一个偏好标签,然后根据预先选择的偏好标签和第一个响应生成第二个更(或更少)受欢迎的响应。这种方法具有两个主要优点。首先,RMBoost减少了标注噪声,因为偏好对是有意构建的。其次,RMBoost通过将各种质量方面(例如,有用性、相关性、完整性)纳入提示中,有助于创建更多样化的响应。我们在三个不同的数据集上进行了广泛的实验,并证明了RMBoost优于其他合成偏好数据生成技术,并显著提高了四种不同奖励模型的性能。
- 图表
- 解决问题本文旨在解决使用现有大型语言模型生成偏好标签数据时引入噪声的问题,提出了一种新的合成偏好数据生成方法RMBoost。
- 关键思路RMBoost的关键思路是先生成一个回答并选择一个偏好标签,然后在预选的偏好标签和第一个回答的条件下生成第二个更(或更少)受欢迎的回答,从而减少标注噪声并促进多样性。
- 其它亮点实验结果表明,RMBoost在三个不同的数据集上优于其他合成偏好数据生成技术,并显著提高了四个不同奖励模型的性能。
- 与此相关的研究包括使用生成对抗网络(GANs)生成偏好标签数据,以及使用主动学习和半监督学习减少人工标注的需求。
沙发等你来抢
去评论
评论
沙发等你来抢