Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data

2024年06月20日
  • 简介
    Retrieval-augmented generation (RAG)通过整合从外部知识源检索到的相关信息来增强语言模型的输出。但是,当检索过程涉及私人数据时,RAG系统可能面临严重的隐私风险,可能导致敏感信息泄露。为了解决这个问题,我们提出使用合成数据作为检索数据的隐私保护替代方案。我们提出了SAGE,一种新的两阶段合成数据生成范例。在第一阶段,我们采用基于属性的提取和生成方法来保留原始数据中的关键上下文信息。在第二阶段,我们通过基于代理的迭代细化过程进一步增强了合成数据的隐私属性。广泛的实验表明,使用我们的合成数据作为检索上下文可以实现与使用原始数据相当的性能,同时大大降低了隐私风险。我们的工作是探索为RAG生成高效和隐私保护的合成数据的可能性的第一步,为在各个领域安全应用RAG系统开辟了新的机会。
  • 图表
  • 解决问题
    解决Retrieval-augmented generation (RAG)系统中隐私泄露问题,提出使用合成数据作为检索数据的隐私保护替代方案。
  • 关键思路
    提出一种两阶段的合成数据生成方法SAGE,通过属性提取和代理迭代优化等方法生成高质量的合成数据,并在RAG系统中进行实验验证。
  • 其它亮点
    SAGE方法生成的合成数据在RAG系统中表现出与原始数据相当的性能,同时有效减少隐私风险。实验使用了多个数据集,并开源了代码。
  • 相关研究
    相关研究包括使用差分隐私保护数据的方法,以及使用生成对抗网络生成合成数据的方法。例如,Differentially Private Learning和Generative Adversarial Privacy。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论