Towards Multi-modal Transformers in Federated Learning

2024年04月18日
  • 简介
    多模态变换器在不同领域取得了显著进展,但孤立的高质量数据阻碍了它们的进一步改进。为了解决这个问题,联邦学习(FL)作为一种有前途的隐私保护范式出现,可以在不直接访问不同客户持有的原始数据的情况下训练模型。尽管它具有潜力,但关于不成对的单模态客户和FL中的变换器架构的相当大的研究方向仍未被开发。为了填补这一空白,本文在视觉语言领域内探讨了一种转移多模态联邦学习(MFL)场景,其中客户拥有分布在不同数据集中的各种模态的数据。我们系统地评估了现有方法在使用变换器架构时的性能,并通过解决客户之间的模态内和模态间差距,引入了一个名为联邦模态互补与协作(FedCola)的新框架。通过在各种FL设置下的广泛实验,FedCola表现出优于以前方法的性能,为未来多模态变换器的联邦训练提供了新的视角。
  • 图表
  • 解决问题
    本论文旨在探索联邦学习在多模态transformer模型训练中的应用,解决不同客户端数据分布不同、数据孤立等问题。
  • 关键思路
    提出了一种名为FedCola的框架,通过解决客户端内和客户端之间的模态差异,实现了跨模态联邦学习。
  • 其它亮点
    实验结果表明,FedCola相比现有方法在联邦学习中表现更优,为未来的多模态transformer模型训练提供了新的思路。
  • 相关研究
    与本文相关的研究包括:Federated Learning for Computer Vision: A Survey 和Federated Learning with Non-IID Data: A Review。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论