- 简介随着光学字符识别(OCR)的不断发展和应用领域的扩展,复杂场景下的文本识别已成为一个关键挑战。多种字体、混合场景和复杂布局等因素严重影响了传统OCR模型的识别精度。虽然基于深度学习的OCR模型在近年来的特定领域或类似数据集中表现良好,但面对多场景的复杂环境时,模型的泛化能力和鲁棒性仍然是一个巨大的挑战。此外,从头开始训练OCR模型或微调所有参数对计算资源和推理时间的要求非常高,这限制了其应用的灵活性。本研究针对混合文本识别的基本问题,以有效地微调预训练的基本OCR模型以在各种下游任务中展现出色的性能为重点。为此,我们提出了一种基于预训练OCR Transformer的参数高效的混合文本识别方法,即DLoRA-TrOCR。该方法将DoRA嵌入图像编码器中,将LoRA嵌入文本解码器的内部结构中,实现了对下游任务的高效参数微调。实验表明,与类似的参数调整方法相比,我们的DLoRA-TrOCR模型具有最少的参数,并且表现更好。它可以在涉及混合手写、印刷和街景文本同时识别的复杂场景数据集上实现最先进的性能。
- 图表
- 解决问题本论文旨在解决OCR模型在复杂场景下的文本识别问题,提出了一种基于预训练OCR Transformer的参数高效混合文本识别方法。
- 关键思路DLoRA-TrOCR方法将DoRA嵌入到图像编码器中,将LoRA嵌入到文本解码器的内部结构中,实现了对下游任务的高效参数微调。相比于类似的参数调整方法,该方法具有更少的参数且表现更好。
- 其它亮点论文使用了多个包括手写、印刷和街景文本在内的复杂场景数据集进行实验,表现出了与当前最先进方法相媲美的性能。此外,该方法的模型参数较少,且开源了代码。
- 最近的相关研究包括:《A Comprehensive Survey on Scene Text Recognition》、《Text Recognition in the Wild with the Attention-Based CRNN》等。
沙发等你来抢
去评论
评论
沙发等你来抢