- 简介我们提出了STAMP(面向任务的文本隐私保护选择性机制),这是一种全新的、面向任务的文本隐私化框架,能够在隐私保护与效用之间实现更优的权衡。STAMP通过联合考量以下两个因素,在词元(token)粒度上动态分配隐私预算:(i)各词元对下游任务的重要性(通过任务特定或查询特定的表征进行量化);(ii)其隐私敏感性(例如人名、日期、唯一标识符等)。这种细粒度的词元级预算划分,使得我们能够以分组方式对输入文本不同部分所添加的噪声强度实施精准调控,从而在保障隐私的同时兼顾任务相关性。为实现单个词元嵌入的隐私化处理,我们提出了“极坐标机制”(polar mechanism):该机制仅扰动单位球面上嵌入向量的方向,而严格保持其模长(即向量长度)不变。解码过程则采用余弦相似度最近邻搜索,使扰动的空间几何结构与解码的空间几何结构保持一致。与各向同性噪声机制不同,极坐标机制能有效维持嵌入空间中的语义邻域结构,从而更充分地保留下游任务性能。我们在SQuAD、Yelp和AG News等多个基准数据集上的实验表明:当STAMP与归一化极坐标机制相结合时,无论单个词元的隐私预算如何变化,均能持续取得更优的隐私—效用权衡效果。
-
- 图表
- 解决问题如何在文本隐私保护中实现任务感知的细粒度隐私预算分配,以在保证下游任务性能(utility)的同时满足严格隐私要求(privacy),而非采用传统均匀分配隐私预算的粗粒度方法。这是一个较新的问题,尤其聚焦于token-level的动态预算分配与语义保持的联合优化。
- 关键思路提出STAMP框架:首次将token级隐私预算分配建模为任务重要性(task-aware representation)与隐私敏感性(e.g., PII)的联合函数;并设计极坐标机制(polar mechanism)——仅扰动嵌入向量方向(单位球面)而不改变模长,使噪声几何与cosine相似度解码天然对齐,显著优于各向同性高斯/拉普拉斯机制。
- 其它亮点实验在SQuAD(问答)、Yelp(情感分类)、AG News(新闻分类)三大基准上系统验证了STAMP在不同ε_per-token下的隐私-效用Pareto优势;采用标准差/攻击成功率(如 membership inference、attribute inference)量化隐私,F1/accuracy衡量效用;论文未提及其开源代码,但机制设计简洁、可即插即用于BERT/RoBERTa等编码器;值得深入的方向包括:自动敏感词识别与任务重要性联合学习、极坐标机制在跨模态隐私中的推广、以及理论层面的方向扰动DP边界分析。
- Differentially Private Text Generation via Optimal Transport (ICLR 2022); DP-BERT: Differential Privacy for Pre-trained Language Models (ACL 2021); PATE-GAN: Generating Synthetic Data with Differential Privacy Guarantees (ICLR 2019); Text-to-Text Privatization with Adaptive Noise (NeurIPS 2023 Workshop); Token-Level Differential Privacy for NLP (EMNLP 2022 Findings)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流