- 简介已经提出了多种对齐语言模型的方法,包括监督微调、RLHF和直接优化方法,如DPO。虽然DPO由于其简单的训练过程和竞争力强的结果而迅速赢得了人们的青睐,但仍存在一个问题,即是否仍然存在使用判别器(如奖励模型)评估响应的实际优势。我们提出了D2PO,即判别器引导的DPO,这是一种在线设置的方法,其中正在收集偏好设置。当我们收集到黄金偏好设置时,我们不仅用它们来训练我们的策略,还用它们来训练一个判别响应评估模型,以便为策略训练更多的合成数据。我们在一组不同的任务中探索了这种方法,包括一个现实的聊天设置,我们发现我们的方法相比于具有相同数据预算的DPO能够产生更高质量的输出,并且在偏好数据要求方面更加高效。此外,我们展示了银标记最有帮助的条件:在使用DPO训练策略时最有效,优于传统的PPO,并且受益于保持与策略模型分开的判别器。
-
- 图表
- 解决问题论文提出了D2PO方法,旨在解决在线学习中语言模型对齐的问题。该方法通过使用鉴别器来评估响应质量,从而提高输出质量和效率。
- 关键思路D2PO方法通过使用金标签数据来训练策略和鉴别器模型,并使用银标签数据来进一步优化模型。该方法在实验中表现出更高的输出质量和更高的效率。
- 其它亮点论文在多个任务上测试了D2PO方法,包括真实的聊天环境。实验结果表明,D2PO方法可以在与DPO相同的数据预算下提高输出质量,并且需要更少的偏好数据。论文还探讨了银标签数据的最佳使用条件,并发现将鉴别器模型与策略模型分开训练可以带来更好的效果。
- 与D2PO方法相关的研究包括DPO和PPO等直接优化方法,以及RLHF等其他对齐方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流