DocRes: A Generalist Model Toward Unifying Document Image Restoration Tasks

2024年05月07日
  • 简介
    文档图像恢复是文档人工智能系统的一个关键方面,因为文档图像的质量显著影响整体性能。现有的方法独立地处理不同的恢复任务,导致系统复杂且无法利用多任务学习的潜力。为了克服这个挑战,我们提出了DocRes,一个综合了五个文档图像恢复任务(包括去除畸变、去除阴影、外观增强、去模糊和二值化)的通用模型。为了指导DocRes执行各种恢复任务,我们提出了一种新颖的视觉提示方法,称为动态任务特定提示(DTSPrompt)。不同任务的DTSPrompt包括不同的先前特征,这是从输入图像中提取的附加特征。除了作为任务特定执行的提示之外,DTSPrompt还可以作为补充信息来增强模型的性能。此外,DTSPrompt比先前的视觉提示方法更灵活,因为它可以无缝地应用和适应具有高分辨率和可变分辨率的输入。实验结果表明,与现有的最先进的任务特定模型相比,DocRes实现了具有竞争力或更优越的性能。这凸显了DocRes在更广泛的文档图像恢复任务中的潜力。源代码可在https://github.com/ZZZHANG-jx/DocRes上公开获取。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决文档图像恢复中独立处理不同恢复任务的问题,提出了一种统一的文档图像恢复模型和动态任务特定提示方法,以提高模型性能和效率。
  • 关键思路
    本文提出了一种名为DocRes的文档图像恢复模型,将五种不同的恢复任务统一起来,同时提出了一种动态任务特定提示方法(DTSPrompt),以指导模型执行不同的恢复任务。
  • 其它亮点
    本文提出的DocRes模型在五种文档图像恢复任务上表现出了与现有最先进的任务特定模型相当或更好的性能,同时DTSPrompt方法也比以往的视觉提示方法更加灵活和适用于高分辨率和可变分辨率的输入。论文代码已经公开。
  • 相关研究
    与本文相关的研究包括基于深度学习的文档图像恢复方法,以及使用不同的视觉提示方法来指导模型执行不同的恢复任务的方法。例如,文章提到了几篇文献,如《DeepDeblur: Image Restoration with Deep Learning Based on Multi-Task Learning》和《Task-Driven Generative Modeling for Text Recognition》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问