RanLayNet: A Dataset for Document Layout Detection used for Domain Adaptation and Generalization

In Proceedings of the 5th ACM International Conference on Multimedia in Asia 2023. Association for Computing Machinery, NY, USA, Article 74, pp. 1-6
2024年04月15日
  • 简介
    大规模真实数据集和深度学习技术的最新进展已经对版面检测有所帮助。然而,由于这些数据集的版面多样性受限,训练需要大量的注释实例,这既耗时又昂贵。因此,源域和目标域之间的差异可能会严重影响这些模型的功能。为解决这个问题,已经开发了域自适应方法,利用少量标记数据来调整模型以适应目标域。在这项研究中,我们引入了一个名为 RanLayNet 的合成文档数据集,其中包含自动分配的标签,用于表示版面元素的空间位置、范围和类型。这项工作的主要目的是开发一个多功能数据集,能够训练具有适应各种文档格式的鲁棒性和适应性的模型。通过实证实验,我们证明了在我们的数据集上训练的深度版面识别模型表现出比仅在实际文档上训练的模型更好的性能。此外,我们通过在 Doclaynet 数据集上微调推理模型,对 PubLayNet 和 IIIT-AR-13K 数据集进行了比较分析。我们的研究结果强调,使用我们的数据集丰富的模型在科学文档领域的 TABLE 类任务中能够实现 0.398 和 0.588 的 mAP95 分数。
  • 图表
  • 解决问题
    本论文旨在解决文档布局识别中数据集多样性不足的问题,提出了一种名为RanLayNet的合成文档数据集,用于训练具有适应性和鲁棒性的深度学习模型。
  • 关键思路
    本文提出了一种利用少量标记数据进行领域自适应的方法,通过使用RanLayNet数据集训练的深度学习模型,在文档布局识别任务中表现出更好的性能。
  • 其它亮点
    本文提出了一个名为RanLayNet的合成文档数据集,用于训练鲁棒性更强的深度学习模型。实验结果表明,使用RanLayNet数据集训练的模型在文档布局识别任务中表现更好。本文还进行了对比实验,证明了RanLayNet数据集在科学文档领域的优越性。
  • 相关研究
    在文档布局识别领域,近年来已经出现了许多相关研究。例如,PubLayNet和IIIT-AR-13K数据集被广泛用于文档布局识别任务的训练。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论