FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference Rankings

2025年01月11日
  • 简介
    高效的偏好优化算法,例如直接偏好优化(DPO),已成为使大型语言模型(LLMs)与人类偏好对齐的流行方法。这些算法隐式地将LLM视为奖励模型,并专注于训练它以纠正错误排序的偏好对。然而,最近的研究发现,尽管DPO的梯度强调这些情况,但实际上DPO训练很少改善这些错误排序的偏好对。我们引入了FocalPO,这是一种DPO变体,它反而降低了错误排序偏好对的权重,并优先增强模型对那些它已经能够正确排序的对的理解。受视觉任务中使用的Focal Loss启发,FocalPO通过添加一个调制因子来动态调整DPO损失,从而实现这一点。我们的实验表明,在使用Mistral-Base-7B和Llama-3-Instruct-8B进行的Alpaca Eval 2.0等流行基准测试中,FocalPO超越了DPO及其变体。此外,我们还实证揭示了FocalPO如何影响正确和错误样本组的训练,进一步突显了其有效性。
  • 图表
  • 解决问题
    该论文试图解决大型语言模型(LLMs)在使用直接偏好优化(DPO)进行训练时,未能有效改善错误排序的偏好对的问题。尽管DPO的梯度强调这些案例,但其效果并不理想。这并不是一个全新的问题,但它是当前研究中的一个重要挑战。
  • 关键思路
    论文的关键思路是引入FocalPO,一种改进版的DPO算法。FocalPO通过减少对错误排序偏好对的关注,转而增强模型对已正确排序的偏好对的理解。它受到Focal Loss的启发,在DPO损失中加入了一个动态调节因子,以实现这一目标。相比传统的DPO,FocalPO提供了一种新的方法来优化偏好排序,尤其是在处理难以纠正的错误时。
  • 其它亮点
    论文展示了FocalPO在多个基准测试上的优越性能,特别是在Alpaca Eval 2.0上使用Mistral-Base-7B和Llama-3-Instruct-8B模型。实验设计详细分析了FocalPO如何影响正确和错误样本组的训练过程。此外,作者提供了开源代码,使得其他研究人员可以复现和进一步探索这些结果。未来值得深入研究的方向包括更广泛的模型适用性和不同领域中的应用。
  • 相关研究
    最近在这个领域中,相关研究还包括《chen2024preference》等论文,探讨了DPO的有效性和局限性。其他相关的研究可能包括:《Improving Language Model Alignment via Preference Learning》,《Enhancing Reward Models for Language Generation Tasks》,以及《Advanced Techniques in Preference-Based Optimization for LLMs》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论