Curry-DPO: Enhancing Alignment using Curriculum Learning & Ranked Preferences

2024年03月12日
  • 简介
    直接偏好优化(DPO)是一种有效的技术,利用成对的偏好数据(通常是每个用户提示中选择和拒绝的一对响应)来对齐LLM与人类偏好。在实践中,对于给定的提示,可能存在多个响应,其相对质量不同。如果有多个响应的质量评级可用,我们建议利用这些响应为给定提示创建多个偏好对。我们的工作集中于通过课程学习方法系统地使用构建的多个偏好对进行DPO训练。具体而言,我们根据各种标准将这些多个偏好数据对从易到难排序(模拟课程培训)。我们展示了我们提出的方法与标准单对DPO设置的详细比较。我们的方法称为Curry-DPO,它在MTbench、Vicuna、WizardLM和UltraFeedback测试集上持续表现出增加的性能收益,突显其有效性。具体而言,Curry-DPO在MT-bench上以7.43的得分,使用Zephy-7B模型,优于大多数具有类似参数大小的现有LLM。在我们的实验中,Curry-DPO还在Vicuna、WizardLM和UltraFeedback测试数据集上实现了最高的调整胜率(分别为90.7%、87.1%和87.9%),与标准DPO技术相比,获得了高达7.5%的显着增益。
  • 图表
  • 解决问题
    本篇论文旨在通过使用多个回答来构建多个偏好对,利用课程学习方法系统地使用构建的多个偏好对进行DPO训练,从而提高语言模型的性能。
  • 关键思路
    本文提出了一种名为Curry-DPO的新型DPO方法,该方法通过对多个偏好对进行课程学习,从简单到复杂地进行训练,以提高语言模型的性能。
  • 其它亮点
    本文的实验结果表明,Curry-DPO方法在MTbench、Vicuna、WizardLM和UltraFeedback测试集上均取得了显著的性能提升,其中在MT-bench数据集上的得分为7.43,超过了大多数具有相似参数大小的现有LLMs。此外,Curry-DPO还在Vicuna、WizardLM和UltraFeedback测试数据集上获得了最高的调整胜率(分别为90.7%、87.1%和87.9%),与标准DPO技术相比,提高了高达7.5%。
  • 相关研究
    在最近的研究中,也有一些相关的工作,如Preference-based Reinforcement Learning via Sarcasm Detection和Preference-based Interactive Learning with Queries and Counterfactuals。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论