MSRA-万字综述直击多模态文档理解

论文标题:
Document AI: Benchmarks, Models and Applications

论文链接:
https://arxiv.org/abs/2111.08609

随着最近几年多模态大火的，越来越多的任务都被推陈出新为多模态版本。譬如，传统对话任务，推出了考虑视觉信息的多模态数据集；事件抽取，也推出视频形式的多模态版本；就连 grammar induction（语法归纳），也有了多模态版的（详见 NAACL'2021 best paper）。

然而，多模态大火虽是最近的事情，但它并不是近两年才有的什么新技术。如果是想要对这一领域有比较深的研究，甚至想要做出工作、有所创新，那仅仅了解多模态最近两年几个大火的多模态模型显然是不足够的。

事实上，有些任务已经天生就是多模态很多年了。早在多模态成为焦点之前，就已经默默被研究二十来年了。比如，智能文档（Document AI）技术。所谓智能文档技术，也就是自动理解、分析业务文档技术，文档内容可包含文字、图片、视频等多种形式。由于理解多模态形式的多模态形式文的需求其实广泛长期存在，所以智能文档技术很多年来都是几个大厂的研究重点之一。近年来，深度学习技术的普及也更好地推动了例如文档布局分析、可视化信息提取、文档可视化问答、文档图像分类等智能文档算法的发展。近期，微软亚研院发表了一篇综述，简要回顾了一些有代表性的DocumentAI的模型、任务和基准数据集。小编认为这篇概述的总结体系非常扎实，是值得细细阅读的多模态相关综述，故与各位分享。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

MSRA-万字综述 直击多模态文档理解

评论

MSRA-万字综述直击多模态文档理解