- 简介本文提出了一种更简单但更有效的优化算法SimPO,它是一种广泛使用的离线偏好优化算法DPO的改进。SimPO的有效性归功于其关键设计:使用序列的平均对数概率作为隐式奖励。这种奖励公式更符合模型生成,消除了参考模型的需求,使其更加计算和内存高效。此外,我们在Bradley-Terry目标函数中引入了目标奖励边界,以鼓励获胜和失败响应之间的更大边界,进一步提高了算法的性能。我们在包括AlpacaEval 2、MT-Bench和Arena-Hard等广泛的指令跟随基准测试中比较了SimPO和DPO及其最新变体。结果表明,SimPO在不显著增加响应长度的情况下,始终显著优于现有方法。具体而言,在AlpacaEval 2上,SimPO比DPO高出6.4分,在Arena-Hard上高出7.5分。我们基于Llama3-8B-Instruct构建的最佳模型在AlpacaEval 2上获得了惊人的44.7长度控制胜率,在排行榜上超过了Claude 3 Opus,在Arena-Hard上获得了33.8胜率,成为最强的8B开源模型。
-
- 图表
- 解决问题SimPO试图解决离线偏好优化算法中存在的计算和内存效率问题,同时提高算法的性能。
- 关键思路SimPO的关键思路是使用序列的平均对数概率作为隐式奖励,从而更好地与模型生成相一致,并消除了参考模型的需求,使其更加高效。
- 其它亮点论文通过对比DPO和其最新变体,表明SimPO在多个基准测试集上都能显著超越现有算法。实验结果显示,基于Llama3-8B-Instruct的SimPO模型在AlpacaEval 2数据集上的长度控制胜率达到了44.7%,在Arena-Hard数据集上的胜率达到了33.8%,成为了最强的8B开源模型。
- 与SimPO相关的研究包括DPO及其变体。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流