论文标题:
Document AI: Benchmarks, Models and Applications
论文链接:
https://arxiv.org/abs/2111.08609
随着最近几年多模态大火的,越来越多的任务都被推陈出新为多模态版本。譬如,传统对话任务,推出了考虑视觉信息的多模态数据集;事件抽取,也推出视频形式的多模态版本;就连 grammar induction(语法归纳),也有了多模态版的(详见 NAACL'2021 best paper)。
然而,多模态大火虽是最近的事情,但它并不是近两年才有的什么新技术。如果是想要对这一领域有比较深的研究,甚至想要做出工作、有所创新,那仅仅了解多模态最近两年几个大火的多模态模型显然是不足够的。
事实上,有些任务已经天生就是多模态很多年了。早在多模态成为焦点之前,就已经默默被研究二十来年了。比如,智能文档(Document AI)技术。所谓智能文档技术,也就是自动理解、分析业务文档技术,文档内容可包含文字、图片、视频等多种形式。由于理解多模态形式的多模态形式文的需求其实广泛长期存在,所以智能文档技术很多年来都是几个大厂的研究重点之一。近年来,深度学习技术的普及也更好地推动了例如文档布局分析、可视化信息提取、文档可视化问答、文档图像分类等智能文档算法的发展。近期,微软亚研院发表了一篇综述,简要回顾了一些有代表性的DocumentAI的模型、任务和基准数据集。小编认为这篇概述的总结体系非常扎实,是值得细细阅读的多模态相关综述,故与各位分享。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢