- 简介本文介绍了通过偏好优化将大型语言模型(LLMs)与人类偏好对齐的重要性,但这需要针对每个提示对评估者进行所选和拒绝的文本完成的比较,因此非常费时。最近,Kahneman-Tversky Optimization(KTO)证明仅使用每个提示-完成对的二进制“赞”或“踩”信号即可对LLMs进行对齐。本文提出了理论基础来解释通过这些二进制信号实现的成功对齐。我们的分析揭示了一个新的视角:优化二元分类器,其逻辑回归是一种奖励,隐含地引导了最小化直接偏好优化(DPO)损失。在这一发现的过程中,我们确定了两种有效的对齐技术:奖励偏移和基础分布匹配。因此,我们提出了一种新的算法,称为“二元分类器优化”,该算法集成了这些技术。我们在两个设置中验证了我们的方法:首先,在配对偏好数据集上,我们的方法表现与DPO和KTO相当;其次,在模拟具有不同基础分布的赞和踩数据之间的真实世界条件的二进制信号数据集上。我们的模型在两个基础LLM和三个不同的二进制信号数据集上始终表现出有效和稳健的对齐,展示了我们的方法从二进制反馈中学习的强大能力。
- 图表
- 解决问题论文旨在探索用二元信号(如“赞”或“踩”)对大型语言模型(LLM)进行偏好优化的有效方法,以减少评估者的劳动强度。
- 关键思路论文提出了一种新的算法,Binary Classifier Optimization,通过优化二元分类器的logit作为奖励,隐式地最小化了直接偏好优化(DPO)损失,实现了有效的偏好优化。
- 其它亮点论文通过实验验证了该算法的有效性和稳健性,并展示了reward shift和underlying distribution matching两种有效的对齐技术。实验数据包括一个成对偏好数据集和三个模拟现实世界条件的二元信号数据集。论文还提供了开源代码。
- 相关研究包括Kahneman-Tversky Optimization(KTO)和直接偏好优化(DPO)等方法。
沙发等你来抢
去评论
评论
沙发等你来抢