作者:Zineng Tang , Ziyi Yang , Guoxin Wang  ,等

简介:本文提出了通用文档处理 (UDOP)作为基础文档 AI 模型。UDOP统一了文本、图像和布局模式以及各种任务格式,包括文档理解和生成。UDOP 利用文本内容和文档图像之间的空间相关性,以一种统一的表示形式对图像、文本和布局模态进行建模。借助新颖的 Vision-Text-Layout Transformer,UDOP 将预训练和多域下游任务统一到基于提示的序列生成方案中。UDOP 使用创新的自我监督目标和多样化的标记数据在大规模未标记文档语料库上进行了预训练。UDOP 还学习通过遮罩图像重建从文本和布局模态生成文档图像。据作者所知:这是文档 AI 领域首次一个模型同时实现高质量的神经文档编辑和内容定制。作者的方法在不同数据领域的 9 项文档 AI 任务(例如文档理解和 QA)上获得了SOTA效果,UDOP 在文档理解基准 (DUE) 的排行榜上排名第一。

论文下载:https://arxiv.org/pdf/2212.02623.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除