D2PO: Discriminator-Guided DPO with Response Evaluation Models

简介

已经提出了多种对齐语言模型的方法，包括监督微调、RLHF和直接优化方法，如DPO。虽然DPO由于其简单的训练过程和竞争力强的结果而迅速赢得了人们的青睐，但仍存在一个问题，即是否仍然存在使用判别器（如奖励模型）评估响应的实际优势。我们提出了D2PO，即判别器引导的DPO，这是一种在线设置的方法，其中正在收集偏好设置。当我们收集到黄金偏好设置时，我们不仅用它们来训练我们的策略，还用它们来训练一个判别响应评估模型，以便为策略训练更多的合成数据。我们在一组不同的任务中探索了这种方法，包括一个现实的聊天设置，我们发现我们的方法相比于具有相同数据预算的DPO能够产生更高质量的输出，并且在偏好数据要求方面更加高效。此外，我们展示了银标记最有帮助的条件：在使用DPO训练策略时最有效，优于传统的PPO，并且受益于保持与策略模型分开的判别器。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文提出了D2PO方法，旨在解决在线学习中语言模型对齐的问题。该方法通过使用鉴别器来评估响应质量，从而提高输出质量和效率。
关键思路

D2PO方法通过使用金标签数据来训练策略和鉴别器模型，并使用银标签数据来进一步优化模型。该方法在实验中表现出更高的输出质量和更高的效率。
其它亮点

论文在多个任务上测试了D2PO方法，包括真实的聊天环境。实验结果表明，D2PO方法可以在与DPO相同的数据预算下提高输出质量，并且需要更少的偏好数据。论文还探讨了银标签数据的最佳使用条件，并发现将鉴别器模型与策略模型分开训练可以带来更好的效果。
相关研究

与D2PO方法相关的研究包括DPO和PPO等直接优化方法，以及RLHF等其他对齐方法。

D2PO: Discriminator-Guided DPO with Response Evaluation Models

提问交流

提问交流