- 简介从人类偏好数据中学习已成为微调大型语言模型(LLMs)的主要范式。在线强化学习(RL)和离线对比方法是最常见的两种技术家族,例如Proximal Policy Optimization(PPO)和Direct Preference Optimization(DPO)。由于两种方法都必须从相同的离线偏好数据集开始,因此在先前的工作中,它们被定位为等效的。为了进一步扩展我们对在线和离线偏好微调技术之间相似性和差异性的理论理解,我们通过数据集覆盖率的视角进行了严格分析,这个概念捕捉了训练数据如何覆盖测试分布,并被广泛应用于RL。我们证明,全局覆盖条件对于离线对比方法收敛到最优策略既必要又充分,但在线RL方法则需要较弱的部分覆盖条件。这种分离提供了一个解释为什么在线RL方法可以比离线方法表现更好的原因,特别是当离线偏好数据不够多样化时。最后,受我们之前的理论观察启发,我们推导出一个混合偏好优化(HyPO)算法,它使用离线数据进行基于对比的偏好优化,并使用在线数据进行KL正则化。理论上和实证上,我们证明HyPO比其纯离线对应物DPO表现更好,同时仍然保持其计算和内存效率。
- 图表
- 解决问题本文旨在通过数据集覆盖度的分析,探究在线和离线偏好微调技术之间的差异和相似之处。同时,提出了一种混合偏好优化算法,即HyPO算法,以提高离线偏好优化的性能。
- 关键思路本文证明了全局覆盖条件对于离线对比方法收敛到最优策略是既必要又充分的,而在线强化学习方法则只需要更弱的部分覆盖条件。同时,提出了HyPO算法,结合了离线数据的对比优化和在线数据的KL正则化,从而提高了性能。
- 其它亮点本文提出了数据集覆盖度的概念,并通过理论证明和实验验证,探究了在线和离线偏好微调技术之间的差异和相似之处。同时,提出了HyPO算法,通过结合离线数据和在线数据的优点,提高了离线偏好优化的性能。实验使用了多个数据集,并开源了代码。
- 与本文相关的研究包括:Proximal Policy Optimization (PPO)和Direct Preference Optimization (DPO)等在线和离线偏好微调方法,以及其他使用数据集覆盖度概念的强化学习研究。
沙发等你来抢
去评论
评论
沙发等你来抢