- 简介当前的联邦学习(FL)方法将分散的训练数据视为单个表格,分为水平(按行)或垂直(按列)分配给参与者。然而,这些方法不适用于处理跨数据库的分布式关系表。这种情况需要复杂的SQL操作,如连接和联合,以获取训练数据,这要么很昂贵,要么受到隐私问题的限制。这引出了一个问题:我们能否直接在分布式关系表上运行FL? 在本文中,我们将这个问题正式化为关系联邦学习(RFL)。我们提出了TablePuppet,一个通用的RFL框架,将学习过程分解为两个步骤:(1)连接学习(LoJ),然后是(2)联合学习(LoU)。简而言之,LoJ将学习推向被连接的垂直表,LoU进一步将学习推向每个垂直表的水平分区。TablePuppet包含计算/通信优化,以处理连接引入的重复元组,以及差分隐私(DP),以防止特征和标签泄漏。我们展示了TablePuppet与两种广泛使用的ML训练算法(随机梯度下降(SGD)和交替方向乘法器方法(ADMM))结合使用的效率,并比较它们的计算/通信复杂度。我们通过训练不同的ML模型来评估在TablePuppet上开发的SGD/ADMM算法。我们的实验结果表明,TablePuppet实现了与直接运行在SQL结果之上的集中式基线相当的模型准确性。此外,ADMM花费的通信时间比SGD更少,收敛到类似的模型准确性。
-
- 图表
- 解决问题解决问题:论文提出了一种新的分布式关系型表上联邦学习的方法,旨在解决当前分布式关系型表上联邦学习的局限性。
- 关键思路关键思路:论文提出了一种将分布式关系型表上联邦学习分解为两个步骤的方法:联接学习和联合学习,并加入了计算/通信优化和差分隐私保护。
- 其它亮点其他亮点:论文使用TablePuppet框架,在两种常用的机器学习训练算法(随机梯度下降和交替方向乘子法)上进行实验,并比较它们的计算/通信复杂度。实验结果表明,TablePuppet可以达到与直接在SQL结果上运行的中心化基线相当的模型准确性。此外,ADMM比SGD更快地收敛到类似的模型准确性。
- 相关研究:最近的相关研究包括《Federated Learning on Non-IID Data Silos: An Experimental Study》、《Federated Learning with Non-IID Data: An Empirical Study》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流