Self-Play Probabilistic Preference Optimization for Language Model Alignment

向作者提问

NEW

简介

传统的基于人类反馈的强化学习方法（RLHF）依赖于类似Bradley-Terry模型的参数模型，无法捕捉到人类偏好中的不传递性和非理性。最近的研究表明，直接使用偏好概率可以更准确地反映人类偏好，从而实现更灵活、更准确的语言模型对齐。本文提出了一种基于自我对弈的语言模型对齐方法，将问题视为一个旨在确定纳什均衡策略的常和博弈。我们的方法名为“自我对弈概率偏好优化”（SPPO），通过迭代策略更新来近似纳什均衡，并享有理论上的收敛保证。我们的方法可以有效地增加所选响应的对数似然，并降低被拒绝响应的对数似然，这不能通过对称的成对损失（如直接偏好优化（DPO）和身份偏好优化（IPO））轻松实现。在实验中，我们只使用UltraFeedback数据集中的60k个提示（没有响应），并且没有进行任何提示增强，通过利用仅具有0.4B参数的预训练偏好模型PairRM，SPPO可以从微调Mistral-7B-Instruct-v0.2模型中获得最先进的长度控制胜率28.53％，在AlpacaEval 2.0上击败了GPT-4-Turbo。它还在MT-Bench和Open LLM排行榜上表现优异。值得注意的是，SPPO的强大性能是在没有来自GPT-4或其他更强大的语言模型的额外外部监督（如响应、偏好等）的情况下实现的。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本论文旨在解决传统强化学习方法在捕捉人类偏好中的不连续性和非理性方面的局限性，提出了一种基于自我对弈的语言模型对齐方法，旨在通过识别纳什均衡策略来优化语言模型的性能。
关键思路

本文提出的自我对弈概率偏好优化（SPPO）方法通过迭代策略更新来逼近纳什均衡，并享有理论收敛保证。该方法可以有效地提高所选响应的对数似然，并降低被拒绝响应的对数似然，这是对称配对损失（如DPO和IPO）无法轻松实现的。
其它亮点

本文使用了UltraFeedback数据集中的60k个提示，没有使用任何提示增强，并利用仅有0.4B参数的预训练偏好模型PairRM，从Mistral-7B-Instruct-v0.2微调中获得了最先进的长度控制胜率28.53％，超越了GPT-4-Turbo在AlpacaEval 2.0上的表现。它还在MT-Bench和Open LLM Leaderboard上优于（迭代）DPO和IPO。值得注意的是，SPPO的强大性能是在没有来自GPT-4或其他更强大的语言模型的额外外部监督（例如响应、偏好等）的情况下实现的。
相关研究

在这个领域中，最近的相关研究包括Direct Preference Optimization（DPO）和Identity Preference Optimization（IPO）。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问