Exposing Privacy Gaps: Membership Inference Attack on Preference Data for LLM Alignment

2024年07月08日
  • 简介
    大型语言模型(LLMs)因其出色的自然语言能力而被广泛采用。然而,在实际应用中部署它们时,重要的是要使LLMs生成符合人类标准的文本。使用Proximal Policy Optimization(PPO)和Direct Preference Optimization(DPO)等方法,利用人类偏好数据对LLMs进行改进取得了显著进展。然而,利用此类偏好数据存在的隐私问题尚未得到充分研究。本文研究了使用人类偏好数据对LLMs进行对齐的脆弱性,突出了先前的成员推断攻击方法在偏好数据方面的缺陷。我们的研究有两个主要贡献:第一,我们介绍了一个专门用于分析偏好数据的新型基于参考的攻击框架,称为PREMIA(Preference data MIA);第二,我们提供了实证证据表明,与PPO模型相比,DPO模型更容易受到成员推断攻击。我们的发现突出了当前LLM对齐的隐私保护实践中存在的差距。
  • 图表
  • 解决问题
    本文旨在研究使用人类偏好数据对LLMs进行对齐的隐私问题,特别是成员推断攻击(MIAs)的问题。
  • 关键思路
    本文提出了一种新的参考攻击框架PREMIA,用于分析偏好数据的隐私泄漏问题,并发现使用DPO模型进行LLMs对齐更容易受到成员推断攻击。
  • 其它亮点
    本文的实验使用了PPO和DPO模型,以及人类偏好数据集,并提供了开源代码。研究发现,使用DPO模型的LLMs更容易受到成员推断攻击。此外,本文还发现当前LLMs对齐的隐私保护存在缺陷。
  • 相关研究
    最近的相关研究包括使用PPO和DPO模型对LLMs进行对齐的工作,以及基于成员推断攻击的隐私泄漏研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论