- 简介传统的人类反馈强化学习(RLHF)方法,依赖于类似Bradley-Terry模型的参数模型,无法捕捉人类偏好中的不传递性和非理性。最近的进展表明,直接使用偏好概率可以更准确地反映人类偏好,从而实现更灵活和准确的语言模型对齐。本文提出了一种基于自我对弈的语言模型对齐方法,将问题视为一个旨在确定纳什均衡策略的常和零和博弈。我们的方法名为“自我对弈偏好优化”(SPPO),通过迭代策略更新来近似纳什均衡,并享有理论收敛保证。我们的方法可以有效地增加所选响应的对数似然,并降低所拒绝响应的对数似然,这是对称成对损失(如DPO和IPO)无法轻松实现的。在我们的实验中,仅使用UltraFeedback数据集中的60k个提示(无响应),并且没有任何提示增强,通过利用仅具有0.4B参数的预训练偏好模型PairRM,SPPO可以从微调Mistral-7B-Instruct-v0.2中获得一个模型,在AlpacaEval 2.0上实现了28.53%的最新控制胜率,超过了GPT-4-Turbo。它在MT-Bench和Open LLM Leaderboard上也优于(迭代的)DPO和IPO。值得注意的是,SPPO的强大表现是在没有来自GPT-4或其他更强大的语言模型的额外外部监督(例如响应、偏好等)的情况下实现的。
- 图表
- 解决问题本论文旨在解决传统强化学习从人类反馈中学习时存在的问题,提出了一种基于自我对弈的语言模型对齐方法,旨在更准确地反映人类偏好,从而提高语言模型的性能。
- 关键思路论文提出的方法是通过自我对弈来近似纳什均衡策略,从而提高语言模型的性能。这种方法可以通过迭代策略更新来逼近纳什均衡,并且具有理论上的收敛保证。
- 其它亮点论文在实验中使用了UltraFeedback数据集中的60k个提示,通过一个预训练的PairRM偏好模型,使用SPPO方法对Mistral-7B-Instruct-v0.2进行微调,获得了在AlpacaEval 2.0上的最新控制胜率记录。此外,该方法在MT-Bench和Open LLM Leaderboard等数据集上也表现出色。值得注意的是,该方法在没有额外的外部监督(例如来自GPT-4或其他更强的语言模型的响应、偏好等)的情况下获得了强大的性能。
- 与本论文相关的研究包括传统的强化学习从人类反馈中学习的方法,以及使用偏好模型进行语言模型对齐的方法。其中,传统的强化学习方法包括Bradley-Terry模型,而使用偏好模型进行语言模型对齐的方法包括Direct Preference Optimization(DPO)和Identity Preference Optimization(IPO)等。
沙发等你来抢
去评论
评论
沙发等你来抢