杨强教授在CCAI 2020上讲了联邦学习的发展历程和最新进展,把联邦学习何传统的机器学习、时下火热的迁移学习和AutoML进行了结合探讨。
例如,我们博士生看到一个非常好机会来做新的研究,拿周老师的西瓜书随意翻到任何一个算法,然后在前面加上“联邦”两个字。比如随机森林,就可以做成一个联邦学习的随机森林。可以在纵向两方进行联邦学习,同时可以在横向进行联邦学习,这是新加坡国立大学何炳胜老师带领的团队做出来的。
这个领域是否只是算法设设计?不仅如此,因为它是多领域的交叉,希望得到右边所示的生态。不同机构之间形成合作的网络共同建模,达到这一点需要做很多研究,比如如何能够满足安全合规?因此做这项工作需要做人工智能技术的人,以及做监管和法律的人在一起研究。要进行防御攻击,假设某一个参与方是坏人,系统是否足够鲁棒,能够防御其攻击。
如何提高算法的效率?因为在联邦交互过程中会有很多加密和解密的过程,是否可以通过芯片和硬件来完成。
上面讲的是当两个数据集有某种交集,比如样本交集或特征交集的前提下是可以做联邦学习的,如果没有交集怎么办?这时就可以用迁移学习解决这样的问题,把联邦学习和迁移学习相结合。
这里有红色和蓝色两个领域,它们之间没有表面重叠,但如果在语义上有很多重叠,比如两个都是有关病人的胸片数据,或者有关物流的仓储数据,可以发现其中有一些子空间;在子空间上,红色这些是有重叠的。在这些交互的子空间上是可以进行联邦学习的,找到同分布的子空间,这可以使我们能够推出一个联邦迁移学习的深度学习模型,在深度学习模型找子空间就非常容易。比如找到一些层,这些层代表了它们共同的子空间,可以进行直接的迁移;对于不同部分,各自再去建模,这样就使得这种模型的建立可以在没有表面交互的情况下也可以进行。 假设有一个坏人混入了这个联盟,一个目的是探测别人的隐私,去学别人的数据,我们有没有办法应对。对于模型和数据的攻击来自三个方面,要分别对待。第一方面,坏人可以推断、训练数据;第二方面,可以损害训练的模型;第三方面,通过测试数据来蒙混过关。
这里特别要强调的是在大规模的工业应用中,我们不能在所有方面都使用最严格的同态加密,所以很多为了效率的提升,使用的是差分隐私。但差分隐私有一定概率会暴露用户隐私的,如最近MIT的韩松教授就证明,如果差分隐私注入的噪音不够多,对方有可能猜出我的原始数据。这就变成了工业上的一个难题。
我们最近成功地解决了这一难题。即,在每一方都建立一个对抗模型,使对抗模型一方的任务是和其他方沟通,另一方是建立模型,只要把这两个模型分开,就可以保证我们在完全保护隐私和隐私完全泄露之间找到一个最佳平衡点,也就不用顾虑暴露隐私,同时能够有非常高的效率。
最近在机器学习界比较火的自动机器学习AutoML,联邦学习因为很多参与方是没有人工智能技术能力的,AutoML和联邦学习的结合就势在必行。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢