- 简介直接偏好优化(DPO)通过直接在人类偏好数据集上训练,消除了奖励模型的需求,从而改善了大型语言模型(LLMs)与人类价值观的一致性。然而,由于跨领域人类偏好的存在,直接连续训练可能会导致灾难性遗忘,限制了DPO的性能和效率。受物种进化驱动的种内竞争启发,我们提出了一种在线快慢追逐DPO(OFS-DPO)的偏好对齐方法,通过模型之间的快速和慢速追逐来模拟竞争,以促进快速适应。具体而言,我们首先推导了在线学习的遗憾上界,通过min-max优化模式验证了我们的动机。基于此,我们引入了两个使用低秩自适应(LoRA)的相同模块,具有不同的优化速度,以模拟种内竞争,并提出了一种新的正则化项来指导它们的学习。为了进一步减轻跨领域情况下的灾难性遗忘,我们将OFS-DPO扩展为具有LoRA模块组合策略的跨领域在线快慢追逐DPO(COFS-DPO)。该方法利用来自不同任务领域的快速模块参数的线性组合,充分利用历史信息,实现持续的价值对齐。实验结果表明,OFS-DPO在领域内对齐方面优于DPO,而COFS-DPO在跨领域持续学习场景中表现出色。
- 图表
- 解决问题本文试图解决使用Direct Preference Optimization(DPO)进行大型语言模型(LLMs)偏好对齐时遇到的跨域偏好数据造成的灾难性遗忘问题,以提高性能和效率。
- 关键思路本文提出了一种新的在线快慢追逐DPO(OFS-DPO)方法,通过使用两个具有不同优化速度的Low-rank Adaptive(LoRA)模块来模拟种内竞争,并引入新的正则化项来指导它们的学习,以促进快速适应。此外,为了缓解跨域场景下的灾难性遗忘问题,本文还提出了一种COFS-DPO方法,通过使用LoRA模块组合策略,利用不同任务域的快速模块参数的线性组合来充分利用历史信息,实现持续的价值对齐。
- 其它亮点本文提出的OFS-DPO方法在域内对齐方面优于DPO,而COFS-DPO在跨域持续学习方面表现出色。实验结果表明,OFS-DPO和COFS-DPO方法均优于当前最先进的方法,并且在多个数据集上进行了验证。
- 与本文相关的研究包括使用DPO进行偏好对齐的先前工作,以及使用不同方法进行模型持续学习的研究,如Elastic Weight Consolidation(EWC)和Continual Learning with Deep Generative Replay(CLDG)。
沙发等你来抢
去评论
评论
沙发等你来抢