MSRA 文档智能：通用文档预训练模型与数据集，推动NLP落地升级

随着数字化进程的加快，文档、图像等载体的结构化分析和内容提取成为关乎企业数字化转型成败的关键一环，自动、精准、快速的信息处理对于生产力的提升至关重要。以商业文档为例，不仅包含了公司内外部事务的处理细节和知识沉淀，还有大量行业相关的实体和数字信息。人工提取这些信息既耗时费力且精度低，而且可复用性也不高，因此，文档智能技术（Document Intelligence）应运而生。

文档智能技术深层次地结合了人工智能和人类智能，在金融、医疗、保险、能源、物流等多个行业都有不同类型的应用。例如：在金融领域，它可以实现财报分析和智能决策分析，为企业战略的制定和投资决策提供科学、系统的数据支撑；在医疗领域，它可以实现病例的数字化，提高诊断的精准度，并通过分析医学文献和病例的关联性，定位潜在的治疗方案。

微软亚洲研究院提出的 LayoutLM 便是一个全新的文档理解模型，通过引入预训练技术，同时利用文本布局的局部不变性特征，可有效地将未标注文档的信息迁移到下游任务中。LayoutLM 的论文（论文链接：https://arxiv.org/abs/1912.13318）已被KDD 2020 接收，并将在KDD 大会上进行分享。同时，为了解决文档理解领域现有的数据集标注规模小、标注粒度大、多模态信息缺失等缺陷，微软亚洲研究院的研究员们还提出了大规模表格识别数据集 TableBank和大规模文档布局标注数据集 DocBank（论文链接：https://arxiv.org/abs/2006.01038），利用弱监督的方法，构建了高质量的文档布局细粒度标注。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

MSRA 文档智能：通用文档预训练模型与数据集，推动NLP落地升级

评论列表

评论