SimPO: Simple Preference Optimization with a Reference-Free Reward

简介

本文提出了一种更简单但更有效的优化算法SimPO，它是一种广泛使用的离线偏好优化算法DPO的改进。SimPO的有效性归功于其关键设计：使用序列的平均对数概率作为隐式奖励。这种奖励公式更符合模型生成，消除了参考模型的需求，使其更加计算和内存高效。此外，我们在Bradley-Terry目标函数中引入了目标奖励边界，以鼓励获胜和失败响应之间的更大边界，进一步提高了算法的性能。我们在包括AlpacaEval 2、MT-Bench和Arena-Hard等广泛的指令跟随基准测试中比较了SimPO和DPO及其最新变体。结果表明，SimPO在不显著增加响应长度的情况下，始终显著优于现有方法。具体而言，在AlpacaEval 2上，SimPO比DPO高出6.4分，在Arena-Hard上高出7.5分。我们基于Llama3-8B-Instruct构建的最佳模型在AlpacaEval 2上获得了惊人的44.7长度控制胜率，在排行榜上超过了Claude 3 Opus，在Arena-Hard上获得了33.8胜率，成为最强的8B开源模型。
图表
解决问题

SimPO试图解决离线偏好优化算法中存在的计算和内存效率问题，同时提高算法的性能。
关键思路

SimPO的关键思路是使用序列的平均对数概率作为隐式奖励，从而更好地与模型生成相一致，并消除了参考模型的需求，使其更加高效。
其它亮点

论文通过对比DPO和其最新变体，表明SimPO在多个基准测试集上都能显著超越现有算法。实验结果显示，基于Llama3-8B-Instruct的SimPO模型在AlpacaEval 2数据集上的长度控制胜率达到了44.7％，在Arena-Hard数据集上的胜率达到了33.8％，成为了最强的8B开源模型。
相关研究

与SimPO相关的研究包括DPO及其变体。

SimPO: Simple Preference Optimization with a Reference-Free Reward

评论