Federated Document Visual Question Answering: A Pilot Study

简介

文献分析研究的一个重要障碍是文档往往受版权保护或包含私人信息，这禁止了它们的公开出版和创建集中的大规模文档数据集。相反，文档分散在私人数据存储中，使得在异构数据上进行广泛训练成为一项繁琐的任务。在这项工作中，我们探索了联邦学习（FL）方案作为一种在分散的私人文档数据上训练共享模型的方法。我们专注于文档视觉问答（DocVQA）问题，这是一种特别适合这种方法的任务，因为模型所需的推理能力在不同领域中可能会有很大的不同。因此，使训练在异构文档数据集上成为可能可以大大丰富DocVQA模型。我们收集了来自不同领域的现有DocVQA数据集，以反映现实应用中的数据异构性。我们在这种多模式设置下探索了自我预训练技术，其中相同的数据用于预训练和微调，这对于隐私保护非常重要。我们进一步提出将自我预训练与使用集中式自适应优化的联邦DocVQA训练方法相结合，这种方法优于FedAvg基线。通过广泛的实验，我们还对使用FL训练DocVQA模型进行了多方面的分析，这为未来的研究提供了见解。我们展示了我们的预训练策略可以在具有多样化DocVQA数据集的联邦训练下有效地学习和扩展，并且微调超参数对于实际文档任务在联邦下至关重要。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
解决问题

本文旨在探索联邦学习在私有文档数据上进行 DocVQA 模型训练的可行性，以解决文档分散和私有数据难以集中的问题。
关键思路

本文提出了一种联邦学习方案，使用自我预训练技术和集中式自适应优化相结合的方法，以在分散的私有文档数据上训练共享的 DocVQA 模型。
其它亮点

本文使用多个不同领域的 DocVQA 数据集来反映现实世界应用中的数据异构性；提出了使用自我预训练技术进行联邦学习的方法，可以在保护隐私的前提下提高模型性能；实验结果表明，使用自我预训练技术和集中式自适应优化的联邦学习方法可以超越 FedAvg 基线。
相关研究

最近的相关研究包括使用联邦学习进行自然语言处理和计算机视觉任务的研究，如“Federated Learning for Natural Language Processing”和“Federated Learning for Computer Vision”。

Federated Document Visual Question Answering: A Pilot Study

提问交流

提问交流