- 简介大量的真实数据集和深度学习技术的最新进展对于布局检测非常有用。然而,由于这些数据集的布局多样性受限,对它们进行训练需要大量的注释实例,这既费时又费钱。因此,源域和目标域之间的差异可能会显著影响这些模型的性能。为了解决这个问题,已经开发了域自适应方法,使用少量标记数据来调整模型以适应目标域。在这项研究中,我们介绍了一个名为RanLayNet的合成文档数据集,其中包含自动分配的标签,表示布局元素的空间位置、范围和类型。这个努力的主要目的是开发一个多用途数据集,能够训练具有鲁棒性和适应性的模型,以适应各种文档格式。通过实证实验,我们证明了在我们的数据集上训练的深层布局识别模型表现出比仅在实际文档上训练的模型更好的性能。此外,我们通过在Doclaynet数据集上微调推理模型,使用PubLayNet和IIIT-AR-13K数据集进行比较分析。我们的发现强调,使用我们的数据集丰富的模型在科学文档领域的TABLE类任务中是最优的,可以实现0.398和0.588的mAP95分数。
- 图表
- 解决问题本文旨在解决文档版面检测中数据集多样性不足、标注成本高昂的问题,提出了一种名为RanLayNet的综合数据集,旨在提高模型的鲁棒性和适应性。
- 关键思路文章提出了一种利用合成数据集进行领域自适应的方法,通过将少量标注数据用于调整模型,提高模型在目标领域中的性能。
- 其它亮点文章介绍了一个名为RanLayNet的合成文档数据集,其中包含自动分配的标签,用于指示布局元素的空间位置、范围和类型。实验结果表明,使用RanLayNet数据集训练的模型表现优于仅使用实际文档训练的模型。文章还进行了比较分析,发现使用RanLayNet数据集进行微调的模型在科学文档领域的表格类任务中表现最佳。
- 近期在文档版面检测领域的相关研究包括:PubLayNet和IIIT-AR-13K数据集,以及使用对抗训练和领域自适应的方法来提高模型性能的研究。
沙发等你来抢
去评论
评论
沙发等你来抢