
-
开源代码:https://github.com/hikopensource/DAVAR-Lab-OCR/tree/main/demo/text_layout/VSR
-
项目地址:https://github.com/hikopensource/DAVAR-Lab-OCR
本文简要介绍ICDAR 2021的Oral论文“LGPMA: Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment”的主要工作。由于表格结构多样性和复杂的单元格跨越关系,表格结构识别是一项具有挑战性的任务。基于表格的结构特征,作者发现获得文本区域的对齐边界框可以更有效地恢复不同单元格之间的关系。然而由于视觉上的模糊性,很难对对齐的边界框进行准确的预测。因此本文的目标是通过充分利用所提出的文本区域和全局特征的视觉信息来获得更可靠的对齐边界框。具体来说,本文提出了局部和全局金字塔掩模对齐的框架,该框架在局部和全局特征映射中都采用了Soft金字塔掩模学习机制,可以实现边界框的预测突破原始方案的限制。然后集成金字塔Mask重新评分模块,来综合局部和全局信息并获得更加可靠的边界框。最后提出了一个鲁棒的表格结构恢复流程来获得最终的表格结构,有效地解决了空单元的定位和划分问题。实验表明该方法在多个公共数据集上取得SOTA效果。

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢