Federated Document Visual Question Answering: A Pilot Study

2024年05月10日
  • 简介
    文献分析研究的一个重要障碍是,文档往往受版权保护或包含私人信息,这禁止了它们的公开出版和创建集中式大规模文档数据集。相反,文档分散在私人数据孤岛中,使得在异构数据上进行广泛的训练成为一项繁琐的任务。在本文中,我们探索使用联邦学习(FL)方案来训练一个共享模型,用于分散的私人文档数据。我们专注于文档视觉问答(DocVQA)问题,这是一种特别适合这种方法的任务,因为模型所需的推理能力在不同领域中可能会有很大的不同。因此,启用在异构文档数据集上的训练可以大大丰富DocVQA模型。我们从不同领域汇集现有的DocVQA数据集,以反映现实应用中的数据异构性。我们在这个多模态环境中探索了自我预训练技术,在这种技术中,相同的数据用于预训练和微调,这对于隐私保护非常重要。我们进一步提出将自我预训练与使用集中式自适应优化的联邦DocVQA训练方法相结合,这种方法的表现优于FedAvg基线。通过大量实验,我们还对使用FL训练DocVQA模型进行了多方面的分析,这为未来研究提供了启示。我们展示了我们的预训练策略可以在具有多样化DocVQA数据集的联邦训练下有效地学习和扩展,并且微调超参数对于在联邦环境下进行实际文档任务非常重要。
  • 图表
  • 解决问题
    本论文旨在探索使用联邦学习方案在分散的私人文档数据上训练共享模型,以解决文档VQA的问题。同时,由于文档通常受版权保护或包含私人信息,因此无法公开发布和创建集中式大规模文档数据集。
  • 关键思路
    论文提出了结合自我预训练技术和联邦学习方法来解决文档VQA问题,并且在多模态环境下证明了这种方法的有效性。
  • 其它亮点
    论文使用联邦学习方案在分散的私人文档数据上训练共享模型,解决了文档VQA问题。同时,论文提出了自我预训练技术,将预训练和微调结合起来,有助于隐私保护。实验结果表明,该方法可以有效地学习和扩展联邦学习下的DocVQA模型。
  • 相关研究
    最近在文档分析领域,还有一些相关的研究,如《DocBERT: BERT for Document Classification》、《Doc2Vec: A Distributed Memory-Based Approach to Document Representation Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论