Privacy-Preserving Data Deduplication for Enhancing Federated Learning of Language Models

2024年07月11日
  • 简介
    去重是一项关键的预处理步骤,可以提高机器学习模型的性能,节省训练时间和能源。然而,通过去重增强联邦学习面临着挑战,特别是涉及共享所有客户端数据的去重可能会违反隐私。在本文中,我们通过引入一种开创性的协议——高效隐私保护多方去重(EP-MPD),来解决联邦设置下的去重问题。它可以有效地从多个客户端数据集中删除重复项,而不会损害数据隐私。EP-MPD采用模块化方式构建,利用两种新颖的私有集合交集协议。我们的广泛实验证明了去重在大型语言模型的联邦学习中的显着优势。例如,我们观察到困惑度提高了高达19.61%,运行时间缩短了高达27.95%。EP-MPD在联邦学习中有效地平衡了隐私和性能,使其成为大规模应用的有价值的解决方案。
  • 图表
  • 解决问题
    在联邦学习中,如何进行数据去重,提高模型性能,同时保护数据隐私?
  • 关键思路
    提出了一种名为EP-MPD的协议,利用两种新型私有集合交集协议,实现多方数据去重,并保护数据隐私。
  • 其它亮点
    实验结果表明,EP-MPD在提高模型性能和保护数据隐私方面都表现出色,可应用于大规模应用中。使用了大型语言模型进行实验,并观察到了高达19.61%的困惑度改善和高达27.95%的运行时间缩短。论文提供了开源代码。
  • 相关研究
    近期相关研究包括《Privacy-Preserving Federated Learning with Byzantine-Robust Aggregation Algorithms》和《Federated Learning with Differential Privacy: Algorithms and Performance》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论