数据是人工智能运转的“石油”。

AI发展至今,能否获得高质量、大批量的数据已成为制约人工智能进一步发展的重要因素,因此、数据共享、融合的需求越来越强烈。

但是——

在许多情况下,打破数据源之间的壁垒非常困难。举个栗子,很多时候,产品销售者拥有产品信息、用户购买数据,但没有描述用户购买能力和支付习惯的数据,因为无法进行整合和综合分析。

在大多数行业中,数据以孤岛的形式存在

尤其是近年来随着隐私保护及数据安全法律法规的逐渐完善,数据孤岛问题变得日益严峻。

在这个背景下,联邦学习应运而生。其本质是一种为了解决数据孤岛问题而提出的机器学习模式与算法

联邦学习是一种特殊的分布式学习。虽然分布式学习已经被研究十几年,但是联邦学习却是一个相对来讲崭新的领域。

从2016年联邦学习(Federated Learning)这一概念被初次提出,几年来可谓发展迅速,作为一个从实际应用激发而出的研究,越来越多的公司和企业加入到联邦学习的实践应用中:国外如Google、Facebook、国内如腾讯、百度、京东等纷纷入局。

经典的FedAvg首次由Google在2017年提出。

核心思路就是:

隐私的数据不上传至云端,将模型下载到每个数据中心训练后上传到云端进行aggregate,重复上述步骤直到模型收敛。保护了分布数据数据隐私性;同时避免了数据的传输,转而使用相对规模更小的模型的传输,节约了计算的通讯开销。

之后随之不断发展,联邦学习在多种行业、应用场景都可见其身影。如政务开发、医疗、金融、数字广告、物流等行业。

中国信通院 - 联邦学习场景应用研究报告(2022 年)

但是近几年,关于联邦学习的各种限制和质疑也相继出现。很多研究者甚至会有这样的疑问:联邦学习是伪需求吗?

当传统联邦学习面临异构性挑战,不妨试试个性化联邦学习