NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human

2024年06月06日
  • 简介
    当使用第三方提供的自然语言处理模型来处理敏感文本时,学术界和工业界日益关注隐私泄露问题。为了在将敏感数据发送给这些模型之前保护隐私,我们建议使用人类常用的两种策略来消除敏感文本:删除敏感表达和通过抽象来模糊敏感细节。为了探索这些问题并开发一个文本重写工具,我们通过众包和大型语言模型(LLMs)创建了第一个语料库,称为NAP^2。与基于差分隐私的先前工作相比,这些人类启发的方法产生了更自然的重写文本,并在隐私保护和数据效用之间提供了改进的平衡,这在我们广泛的实验中得到了证明。
  • 图表
  • 解决问题
    本论文试图通过两种方法(删除敏感表达和抽象敏感细节)来保护敏感文本的隐私,以解决在学术界和工业界使用第三方NLP模型处理敏感文本时隐私泄露的问题。
  • 关键思路
    本论文的关键思路是通过人类启发式方法来重写文本,以保护隐私并提高数据效用。相比于差分隐私的方法,这种方法能够得到更加自然的重写文本,并在隐私保护和数据效用之间取得更好的平衡。
  • 其它亮点
    本论文提出了一个新的语料库NAP^2,并使用众包和大型语言模型来构建。实验结果表明,这种人类启发式方法可以在保护隐私的同时保持数据的自然性和有效性。
  • 相关研究
    与本论文相关的研究包括使用差分隐私的方法来保护隐私,以及使用其他启发式方法来重写文本。相关论文包括《Differential Privacy》和《A Survey of Text Rewriting》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论