- 简介最近在开放领域对话系统的进展得益于高质量的大型语言模型和各种有效的训练方法。然而,这些模型中存在的有害信息会对用户体验造成重大挑战。本研究介绍了一种创新的训练算法,对直接偏好优化(DPO)进行了改进,称为对抗性DPO(ADPO)。ADPO算法旨在训练模型将更高的概率分配给优选的回复,将更低的概率分配给不安全的回复,并使用有害控制标记自动生成这些回复。我们证明ADPO增强了模型对有害对话的韧性,同时最小化了性能下降。此外,我们还说明ADPO相比传统的DPO提供了更稳定的训练过程。据我们所知,这是第一次将有害数据直接纳入生成模型的DPO算法的改进,从而减少了人工创建安全对话数据的需求。
- 图表
- 解决问题解决问题:论文试图解决LLMs中存在有害对话的问题,提出一种新的训练算法ADPO,以增强模型对有害对话的鲁棒性。
- 关键思路关键思路:ADPO算法通过将有害数据直接纳入生成模型,使模型更倾向于生成安全的回答,从而提高模型的鲁棒性。
- 其它亮点亮点:ADPO算法相比传统的DPO算法更稳定,实验结果表明ADPO算法可以有效提高模型的鲁棒性。论文使用了自己创建的数据集,并且开源了代码。值得深入研究的工作包括如何提高模型对不同类型有害对话的鲁棒性。
- 相关研究:最近的相关研究包括使用对抗训练来提高模型的鲁棒性,以及使用多任务学习来减少有害对话的生成。相关论文包括“Improving Robustness of Dialogue Systems Against Adversarial Attacks Using Adversarial Training”和“Multi-Task Learning for Offensive Language Detection”。
沙发等你来抢
去评论
评论
沙发等你来抢