DP-TabICL: In-Context Learning with Differentially Private Tabular Data

2024年03月08日
  • 简介
    本文介绍了一种叫做上下文学习(ICL)的方法,可以通过条件化问题-答案对的演示来让大型语言模型(LLMs)适应新任务,已经证明其性能与昂贵的模型重新训练和微调相当。最近,ICL已经扩展到允许使用表格数据作为演示示例,方法是将单个记录序列化为自然语言格式。然而,已经证明LLMs可能会泄露提示中包含的信息,而且由于表格数据通常包含敏感信息,因此了解如何保护ICL中使用的基础表格数据是研究的关键领域。本文作为一个初始研究,探讨如何使用差分隐私(DP)——数据隐私和匿名化的长期标准——来保护ICL中使用的表格数据。具体而言,我们通过在序列化和提示之前对数据进行私有化,研究了DP机制在私有表格ICL方面的应用。我们制定了两个私有ICL框架,在本地(LDP-TabICL)和全局(GDP-TabICL)DP情况下,通过向单个记录或组统计注入噪声,具有可证明的隐私保证。我们在八个真实的表格数据集上评估了基于DP的框架,并在多个ICL和DP设置下进行了评估。我们的评估结果表明,DP-based ICL可以保护基础表格数据的隐私,同时在高隐私环境下实现与非-LLM基线相当的性能。
  • 图表
  • 解决问题
    本论文旨在解决如何使用差分隐私(DP)来保护用于上下文学习(ICL)的表格数据的隐私问题。ICL将表格数据序列化成自然语言格式,但是LLMs可能会泄漏提示中包含的信息,因此需要保护表格数据的隐私。
  • 关键思路
    本文提出了两种基于DP的ICL框架,通过向个体记录或组统计量注入噪声来在本地(LDP-TabICL)和全局(GDP-TabICL)DP场景下提供可证明的隐私保证。
  • 其它亮点
    本文在8个真实的表格数据集上评估了DP-based ICL的性能,并在多个ICL和DP设置下进行了比较。实验结果表明,在高隐私机制下,DP-based ICL可以保护底层表格数据的隐私,同时实现与非LLM基线相当的性能。
  • 相关研究
    近期的相关研究包括使用DP保护机器学习模型的隐私,以及使用ICL来适应新任务的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论