- 简介最近强化学习与人类反馈(RLHF)的进展对大型语言模型(LLMs)的对齐产生了重大影响。强化学习算法(如近端策略优化(PPO))的敏感性导致了直接策略优化(DPO)的新工作,该工作将RLHF视为监督学习框架。这些RLHF方法的实际应用增加了对其漏洞的分析。在这项工作中,我们研究了DPO在不同场景下对毒化攻击的漏洞,并比较了首次使用的偏好毒化的有效性。我们全面分析了DPO在不同类型的攻击(即后门和非后门攻击)和不同的毒化方法下对各种语言模型(即LLama 7B、Mistral 7B和Gemma 7B)的漏洞。我们发现,与基于PPO的方法不同,当涉及后门攻击时,需要至少毒化4%的数据才能引起有害行为,而我们可以更简单地利用DPO的真正漏洞,只需毒化0.5%的数据即可毒化模型。我们进一步研究了漏洞的潜在原因以及该漏洞在后门和非后门攻击中的表现如何。
- 图表
- 解决问题本论文旨在研究Direct Policy Optimization(DPO)在不同攻击场景下的易受攻击性,特别是对毒化攻击的脆弱性。
- 关键思路论文提出了一种新的攻击方法——偏好毒化攻击,并发现相比PPO方法,DPO方法更易受到攻击,只需要毒化0.5%的数据就能引发有害行为。
- 其它亮点论文对DPO方法进行了全面的攻击漏洞分析,包括后门攻击和非后门攻击,并使用多个语言模型进行了实验验证。同时,论文提出了一种新的攻击方法——偏好毒化攻击。
- 最近在这个领域中,还有一些相关的研究。例如:“Reinforcement Learning with Human Feedback”,“Proximal Policy Optimization”等。
沙发等你来抢
去评论
评论
沙发等你来抢