- 简介大型语言模型(LLMs)因其出色的自然语言能力而被广泛采用。然而,在实际应用中部署它们时,重要的是要使LLMs生成符合人类标准的文本。使用Proximal Policy Optimization(PPO)和Direct Preference Optimization(DPO)等方法,利用人类偏好数据对LLMs进行改进取得了显著进展。然而,利用此类偏好数据存在的隐私问题尚未得到充分研究。本文研究了使用人类偏好数据对LLMs进行对齐的脆弱性,突出了先前的成员推断攻击方法在偏好数据方面的缺陷。我们的研究有两个主要贡献:第一,我们介绍了一个专门用于分析偏好数据的新型基于参考的攻击框架,称为PREMIA(Preference data MIA);第二,我们提供了实证证据表明,与PPO模型相比,DPO模型更容易受到成员推断攻击。我们的发现突出了当前LLM对齐的隐私保护实践中存在的差距。
- 图表
- 解决问题本文旨在研究使用人类偏好数据对LLMs进行对齐的隐私问题,特别是成员推断攻击(MIAs)的问题。
- 关键思路本文提出了一种新的参考攻击框架PREMIA,用于分析偏好数据的隐私泄漏问题,并发现使用DPO模型进行LLMs对齐更容易受到成员推断攻击。
- 其它亮点本文的实验使用了PPO和DPO模型,以及人类偏好数据集,并提供了开源代码。研究发现,使用DPO模型的LLMs更容易受到成员推断攻击。此外,本文还发现当前LLMs对齐的隐私保护存在缺陷。
- 最近的相关研究包括使用PPO和DPO模型对LLMs进行对齐的工作,以及基于成员推断攻击的隐私泄漏研究。
沙发等你来抢
去评论
评论
沙发等你来抢