- 简介虽然最近的语言模型偏好对齐算法已经展示出了很好的结果,但是监督微调(SFT)仍然是实现成功收敛的必要条件。在本文中,我们研究了SFT在偏好对齐中的关键作用,强调了对于不受欢迎的生成风格进行轻微惩罚就足以实现偏好对齐的SFT。在此基础上,我们引入了一种简单而创新的基于单体赔率比的无参考模型的偏好优化算法ORPO,消除了额外偏好对齐阶段的必要性。我们通过实验和理论分析证明,赔率比是在不同规模(从125M到7B)的SFT中,用于对比受欢迎和不受欢迎的风格的明智选择。具体而言,使用ORPO在UltraFeedback上对Phi-2(2.7B)、Llama-2(7B)和Mistral(7B)进行微调,就可以超越具有超过7B和13B参数的最先进语言模型的性能:在AlpacaEval2.0上可以达到12.20%(图1),在IFEval上可以达到66.19%(指令级松散,表6),在MT-Bench上可以达到7.32(图12)。我们发布了Mistral-ORPO-alpha(7B)和Mistral-ORPO-beta(7B)的代码和模型检查点。
- 图表
- 解决问题本文试图解决基于语言模型的偏好对齐算法的问题,强调了监督微调在实现成功收敛方面的重要性。作者提出了一种新的基于单体赔率比的偏好优化算法,ORPO,旨在消除额外的偏好对齐阶段。
- 关键思路本文的关键思路是使用单体赔率比作为微调过程中偏好对齐的度量标准,消除额外的偏好对齐阶段,从而提高语言模型的性能。
- 其它亮点本文实验证明,使用ORPO算法在UltraFeedback数据集上微调Phi-2(2.7B)、Llama-2(7B)和Mistral(7B)的性能超过了拥有7B和13B参数的最先进的语言模型,取得了高达12.20%的AlpacaEval2.0分数、66.19%的IFEval分数和7.32的MT-Bench分数。作者还公开了Mistral-ORPO-alpha(7B)和Mistral-ORPO-beta(7B)的代码和模型检查点。
- 在这个领域中,最近的相关研究包括:Preference Elicitation and Aggregation for Sequences with Applications to Recommendation, Learning Personalized Preference of Users with Hierarchical Bayesian Model, Preference Learning with Gradient Boosted Decision Trees and RankNet, Preference-based Interactive Genetic Algorithm for Multi-objective Optimization, Preference-based Evolutionary Algorithm for Multi-objective Optimization等。
沙发等你来抢
去评论
评论
沙发等你来抢