- 简介虽然最近的语言模型偏好对齐算法已经展示了很有前途的结果,但监督微调(SFT)仍然是实现成功收敛的必要条件。本文研究了SFT在偏好对齐中的关键作用,并强调了对于偏好对齐微调来说,对不喜欢的生成风格进行轻微惩罚就足够了。在此基础上,我们引入了一种简单而创新的无参考模型的单体赔率优化偏好算法ORPO,消除了额外的偏好对齐阶段的必要性。我们从理论和实证方面证明了,在大小从125M到7B的范围内,赔率是在SFT中对比喜欢和不喜欢的风格的明智选择。具体来说,使用ORPO在UltraFeedback上微调Phi-2(2.7B)、Llama-2(7B)和Mistral(7B)就能超过具有超过7B和13B参数的最先进的语言模型的性能,如图1和12所示,在$\text{AlpacaEval}_{2.0}$上达到12.20%,在MT-Bench上达到7.32。我们发布了Mistral-ORPO-$\alpha$(7B)和Mistral-ORPO-$\beta$(7B)的代码和模型检查点。
- 图表
- 解决问题本篇论文旨在探讨在语言模型的偏好对齐中,监督微调的重要性,并提出一种新的优化算法ORPO,消除了额外的偏好对齐阶段。
- 关键思路ORPO算法采用单一的赔率比来对比偏好和不偏好的生成风格,取得了比当前最先进的语言模型更好的性能。
- 其它亮点论文提出的ORPO算法在Phi-2、Llama-2和Mistral等规模的语言模型上取得了很好的效果,超过了当前最先进的语言模型。论文还公开了代码和模型检查点。
- 最近的相关研究包括Preference-Based Learning和Preference Elicitation等。
沙发等你来抢
去评论
评论
沙发等你来抢