DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer

2024年04月19日
  • 简介
    随着光学字符识别(OCR)的不断发展和应用领域的扩展,复杂场景下的文本识别已成为一个关键挑战。多种字体、混合场景和复杂布局等因素严重影响了传统OCR模型的识别精度。虽然基于深度学习的OCR模型在近年来的特定领域或类似数据集中表现良好,但面对多场景的复杂环境时,模型的泛化能力和鲁棒性仍然是一个巨大的挑战。此外,从头开始训练OCR模型或微调所有参数对计算资源和推理时间的要求非常高,这限制了其应用的灵活性。本研究针对混合文本识别的基本问题,以有效地微调预训练的基本OCR模型以在各种下游任务中展现出色的性能为重点。为此,我们提出了一种基于预训练OCR Transformer的参数高效的混合文本识别方法,即DLoRA-TrOCR。该方法将DoRA嵌入图像编码器中,将LoRA嵌入文本解码器的内部结构中,实现了对下游任务的高效参数微调。实验表明,与类似的参数调整方法相比,我们的DLoRA-TrOCR模型具有最少的参数,并且表现更好。它可以在涉及混合手写、印刷和街景文本同时识别的复杂场景数据集上实现最先进的性能。
  • 图表
  • 解决问题
    本论文旨在解决OCR模型在复杂场景下的文本识别问题,提出了一种基于预训练OCR Transformer的参数高效混合文本识别方法。
  • 关键思路
    DLoRA-TrOCR方法将DoRA嵌入到图像编码器中,将LoRA嵌入到文本解码器的内部结构中,实现了对下游任务的高效参数微调。相比于类似的参数调整方法,该方法具有更少的参数且表现更好。
  • 其它亮点
    论文使用了多个包括手写、印刷和街景文本在内的复杂场景数据集进行实验,表现出了与当前最先进方法相媲美的性能。此外,该方法的模型参数较少,且开源了代码。
  • 相关研究
    最近的相关研究包括:《A Comprehensive Survey on Scene Text Recognition》、《Text Recognition in the Wild with the Attention-Based CRNN》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论