预训练时代下的文档智能，如何迈向多模态?丨微软亚研院团队的思路与实践

文档智能是一种旨在针对富文本文档进行理解并抽取其中非结构化信息的技术。

近年来，以LayoutLM为代表的基于文本、布局和图像的多模态预训练模型，在视觉丰富的文档理解任务中取得了优异的性能，展现了不同模态之间联合学习的巨大潜力。

在此基础上，微软亚洲研究院的研究员们提出了多模态预训练模型LayoutLMv2及其多语言扩展LayoutXLM，通过对文本、布局和图像进行联合预训练，进一步提高了模型的性能，在多项任务中取得了新的突破。

本文将基于下图思路，对于包括LayoutLMv2、LayoutXLM在内的几项相关进展展开介绍。

本文讨论的论文链接如下：

LayoutLM (KDD 2020):

https://dl.acm.org/doi/10.1145/3394486.3403172
LayoutLMv2 (ACL 2021):

https://aclanthology.org/2021.acl-long.201/
LayoutXLM (Preprint 2021) :

https://arxiv.org/abs/2104.08836
《文档智能：数据集、模型和应用》：

https://www.microsoft.com/en-us/research/publication/document-ai-benchmarks-models-and-applications-in-chinese/

开源代码：

内容中包含的图片若涉及版权问题，请及时与我们联系删除