作者:Haoyu Cao, Jiefeng Ma, Antai Guo,等
简介:文档信息提取(DIE)由于其在现实世界中的各种高级应用而引起了越来越多的关注。尽管最近的文献已经取得了具有竞争力的结果,但这些方法在处理具有嘈杂 OCR 结果或可变布局的复杂文档时通常会失败。本文针对现实世界场景提出了生成多模态网络(GMN)来解决这些问题,这是一种没有预定义标签类别的鲁棒多模态生成方法。通过精心设计的空间编码器和模态感知掩码模块,GMN 可以处理难以序列化为顺序的复杂文档。此外,GMN 可以容忍 OCR 结果中的错误,并且不需要字符级注释,这很重要,因为对大量文档进行细粒度注释很费力,甚至需要具有专业领域知识的注释者。大量实验表明:GMN 在多个公共 DIE 数据集上实现了新的最先进的性能,并大大超过了其他方法(尤其是在现实场景中)。
论文下载:https://arxiv.org/pdf/2207.04713.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢