DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer

简介

随着光学字符识别（OCR）的不断发展和应用领域的扩展，复杂场景下的文本识别已成为一个关键挑战。多种字体、混合场景和复杂布局等因素严重影响了传统OCR模型的识别精度。虽然基于深度学习的OCR模型在近年来的特定领域或类似数据集中表现良好，但面对多场景的复杂环境时，模型的泛化能力和鲁棒性仍然是一个巨大的挑战。此外，从头开始训练OCR模型或微调所有参数对计算资源和推理时间的要求非常高，这限制了其应用的灵活性。本研究针对混合文本识别的基本问题，以有效地微调预训练的基本OCR模型以在各种下游任务中展现出色的性能为重点。为此，我们提出了一种基于预训练OCR Transformer的参数高效的混合文本识别方法，即DLoRA-TrOCR。该方法将DoRA嵌入图像编码器中，将LoRA嵌入文本解码器的内部结构中，实现了对下游任务的高效参数微调。实验表明，与类似的参数调整方法相比，我们的DLoRA-TrOCR模型具有最少的参数，并且表现更好。它可以在涉及混合手写、印刷和街景文本同时识别的复杂场景数据集上实现最先进的性能。
图表
解决问题

本论文旨在解决OCR模型在复杂场景下的文本识别问题，提出了一种基于预训练OCR Transformer的参数高效混合文本识别方法。
关键思路

DLoRA-TrOCR方法将DoRA嵌入到图像编码器中，将LoRA嵌入到文本解码器的内部结构中，实现了对下游任务的高效参数微调。相比于类似的参数调整方法，该方法具有更少的参数且表现更好。
其它亮点

论文使用了多个包括手写、印刷和街景文本在内的复杂场景数据集进行实验，表现出了与当前最先进方法相媲美的性能。此外，该方法的模型参数较少，且开源了代码。
相关研究

最近的相关研究包括：《A Comprehensive Survey on Scene Text Recognition》、《Text Recognition in the Wild with the Attention-Based CRNN》等。

DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer

评论