FLoRA: Enhancing Vision-Language Models with Parameter-Efficient Federated Learning

2024年04月12日
  • 简介
    在快速发展的人工智能领域中,多模态模型,例如将视觉和语言集成到视觉语言模型(VLM)中的模型,已经成为许多应用的关键,包括图像字幕和多模态搜索引擎。在这些模型中,对比语言-图像预训练(CLIP)模型在理解和生成文本和图像之间微妙关系方面表现出了非凡的性能。然而,这些模型的传统训练通常需要集中聚合大量数据集,这带来了重大的隐私和数据治理挑战。为了解决这些问题,本文提出了一种新的方法,利用联合学习和参数高效适配器,即低秩适配(LoRA),来训练VLMs。这种方法通过在分散的数据源上训练模型来保护数据隐私,并通过LoRA的参数高效微调来确保模型的适应性和效率。我们的方法将训练时间加速了最多34.72倍,并且需要比完全微调少2.47倍的内存使用。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在通过联邦学习和参数高效适配器的结合,解决中心化聚合庞大数据集所带来的隐私和数据治理挑战,以及提高可适应性和效率。
  • 关键思路
    本文提出了一种使用低秩适配器的联邦学习方法,用于训练视觉语言模型,以保护数据隐私并提高模型的效率和可适应性。
  • 其它亮点
    本文的方法可以加速训练时间高达34.72倍,并且需要的内存使用量比完全微调少2.47倍。实验结果表明,该方法在保护数据隐私的同时,仍然能够获得与中心化训练相当的模型性能。
  • 相关研究
    最近的相关研究包括使用联邦学习进行训练的视觉语言模型,以及使用参数高效适配器进行模型微调的方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问