SimPO: Simple Preference Optimization with a Reference-Free Reward

Yu Meng ,
Mengzhou Xia ,
Danqi Chen
2712
热度
2024年05月23日
  • 简介
    本文提出了一种更简单但更有效的优化算法SimPO,它是一种广泛使用的离线偏好优化算法DPO的改进。SimPO的有效性归功于其关键设计:使用序列的平均对数概率作为隐式奖励。这种奖励公式更符合模型生成,消除了参考模型的需求,使其更加计算和内存高效。此外,我们在Bradley-Terry目标函数中引入了目标奖励边界,以鼓励获胜和失败响应之间的更大边界,进一步提高了算法的性能。我们在包括AlpacaEval 2、MT-Bench和Arena-Hard等广泛的指令跟随基准测试中比较了SimPO和DPO及其最新变体。结果表明,SimPO在不显著增加响应长度的情况下,始终显著优于现有方法。具体而言,在AlpacaEval 2上,SimPO比DPO高出6.4分,在Arena-Hard上高出7.5分。我们基于Llama3-8B-Instruct构建的最佳模型在AlpacaEval 2上获得了惊人的44.7长度控制胜率,在排行榜上超过了Claude 3 Opus,在Arena-Hard上获得了33.8胜率,成为最强的8B开源模型。
  • 图表
  • 解决问题
    SimPO试图解决离线偏好优化算法中存在的计算和内存效率问题,同时提高算法的性能。
  • 关键思路
    SimPO的关键思路是使用序列的平均对数概率作为隐式奖励,从而更好地与模型生成相一致,并消除了参考模型的需求,使其更加高效。
  • 其它亮点
    论文通过对比DPO和其最新变体,表明SimPO在多个基准测试集上都能显著超越现有算法。实验结果显示,基于Llama3-8B-Instruct的SimPO模型在AlpacaEval 2数据集上的长度控制胜率达到了44.7%,在Arena-Hard数据集上的胜率达到了33.8%,成为了最强的8B开源模型。
  • 相关研究
    与SimPO相关的研究包括DPO及其变体。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论