Reconstructing training data from document understanding models

2024年06月05日
  • 简介
    文档理解模型越来越被公司用来取代人类处理敏感文件,例如发票、税务通知甚至身份证。然而,这些模型对隐私攻击的鲁棒性仍然未被广泛探索。本文提出了CDMI,这是第一个旨在从这些模型的训练数据中提取敏感字段的重构攻击。我们攻击了LayoutLM和BROS架构,证明了攻击者可以完美地重构出用于微调的文档中高达4.1%的字段,包括一些姓名、日期和六位数的发票金额。当我们的重构攻击与成员推断攻击相结合时,攻击准确率升至22.5%。此外,我们引入了两个新的端到端指标,并在各种条件下评估了我们的方法:单模态或双模态数据,LayoutLM或BROS骨干网络,四个微调任务和两个公共数据集(FUNSD和SROIE)。我们还研究了过度拟合、预测性能和易受攻击性之间的相互作用。最后,我们讨论了可能的防御措施和未来可能的研究方向,以构建强大的文档理解模型。
  • 图表
  • 解决问题
    本论文旨在探索文档理解模型在隐私攻击方面的鲁棒性,提出了CDMI重构攻击方法,针对LayoutLM和BROS架构进行攻击,以此来提取敏感信息。同时,论文也探讨了过拟合、预测性能和攻击易感性之间的相互影响。
  • 关键思路
    CDMI是一种重构攻击方法,可以从文档理解模型的训练数据中提取敏感字段,包括姓名、日期和高达六位数字的发票金额。当该攻击与成员推断攻击结合时,攻击准确率可达22.5%。论文还提出了两个全新的端到端度量标准,评估了不同条件下的方法表现。
  • 其它亮点
    论文提出了CDMI攻击方法,揭示了文档理解模型在隐私攻击方面的薄弱之处。实验使用了FUNSD和SROIE两个公共数据集,攻击效果很好。论文还提出了两个新的端到端度量标准,可以更好地评估方法的表现。此外,论文还探讨了过拟合、预测性能和攻击易感性之间的相互影响。
  • 相关研究
    相关研究包括但不限于:1)文档理解模型的构建和应用;2)隐私攻击方法和防御技术;3)成员推断攻击。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论