- 简介虽然现在常常使用对齐算法来调整预训练的语言模型以符合用户的偏好,但我们缺乏解释模型如何变得“对齐”的基本机制,因此难以解释像越狱等现象。在这项工作中,我们研究了一种流行的算法——直接偏好优化(DPO),以及它减少毒性的机制。具体而言,我们首先研究了毒性如何在预训练语言模型GPT2-medium中被表示和引出。然后,我们使用一个精心制作的成对数据集应用DPO来减少毒性。我们研究了由此产生的模型如何避免产生有毒输出,并发现从预训练中学到的能力并未被消除,而是被绕过。我们利用这一观点演示了一种简单的方法来取消模型的对齐,将其恢复到有毒的行为。
- 图表
- 解决问题研究直接偏好优化(DPO)算法如何减少语言模型中的有害言论,以及该算法的对齐机制如何实现。
- 关键思路使用DPO算法和精心制作的成对数据集来减少语言模型中的有害言论,探究对齐机制的实现方式。通过对模型的学习方式进行分析,提出了一种简单的方法来使模型重新对齐。
- 其它亮点论文使用GPT2-medium模型来研究有害言论如何被表示和激发,并使用DPO算法来减少有害言论的产生。研究发现,模型的预训练能力并未被消除,而是被绕过。实验使用了成对数据集,并提供了开源代码。
- 在这个领域中,最近的相关研究包括《Language Models as Few-Shot Learners》、《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》等。
沙发等你来抢
去评论
评论
沙发等你来抢