Aligning Large Language Models with Self-generated Preference Data

简介

将大型语言模型（LLMs）与人类偏好对齐成为获得最先进性能的关键组成部分，但构建大规模的人类注释偏好数据集的成本巨大。为了解决这个问题，我们提出了一个新的框架，通过自生成偏好数据（Selfie）仅使用少量的人类注释偏好数据来提高LLMs的对齐性。我们的关键思想是利用种子数据中的人类先验知识，并通过迭代生成响应并使用自注释的偏好数据进行学习，逐步改善LLM的对齐性。具体来说，我们建议从LLM的logits中提取偏好标签，以明确提取模型的固有偏好。与使用外部奖励模型或隐含上下文学习的先前方法相比，我们观察到所提出的方法明显更加有效。此外，我们引入了一个噪声感知偏好学习算法，以减轻生成偏好数据中低质量的风险。我们的实验结果表明，所提出的框架显著提高了LLMs的对齐性。例如，我们在AlpacaEval 2.0上实现了优越的对齐性能，仅使用Ultrafeedback数据中3.3％的地面真实偏好标签，相对于使用整个数据或现有技术基线的情况。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何使用少量人工标注的偏好数据来提高大型语言模型与人类偏好的一致性？
关键思路

使用自动生成的偏好数据（Selfie）来提高大型语言模型的一致性。通过从小型种子数据中提取人类先验知识，并通过迭代生成响应并从中学习，逐步改善大型语言模型的一致性。
其它亮点

提出了一种新的方法，通过自动生成的偏好数据来提高大型语言模型的一致性。使用了噪声感知偏好学习算法来减轻生成偏好数据质量低的风险。实验结果表明，该方法在AlpacaEval 2.0数据集上表现显著优于现有方法。
相关研究

在相关研究方面，有一些研究致力于使用外部奖励模型或上下文学习等方法来提高大型语言模型的一致性。例如，论文中提到的AlpacaEval 2.0数据集是用于评估对话模型的数据集，与该领域的其他研究有关。

Aligning Large Language Models with Self-generated Preference Data

提问交流

提问交流