- 简介大型多模态模型(LMMs)在使用自然语言指令识别文档图像方面展示了令人印象深刻的表现。然而,这些模型在处理具有丰富结构和细粒度视觉挑战的文本识读能力上能达到什么程度仍然不清楚。当前的研究领域缺乏一个全面的基准来有效衡量LMMs的文本识读能力。现有的基准测试往往受限于狭窄的场景和特定的任务。为此,我们引入了CC-OCR,这是一个包含多种场景、任务和挑战的综合性基准。CC-OCR 包含四个以光学字符识别(OCR)为中心的赛道:多场景文本阅读、多语言文本阅读、文档解析和关键信息提取。它包括39个子集,共7,058张完全标注的图像,其中41%来自实际应用,并首次发布。我们评估了九个突出的LMMs,揭示了这些模型的优势和不足,特别是在文本定位、多方向识别和重复幻觉方面。CC-OCR旨在全面评估LMMs在OCR中心任务上的能力,促进这一关键领域的持续发展。
-
- 图表
- 解决问题该论文旨在解决现有基准测试在衡量大型多模态模型(LMMs)处理文档图像时的局限性,特别是在结构丰富和细粒度视觉挑战方面的能力。这是一个新问题,因为当前的基准测试通常局限于狭窄的场景和特定任务。
- 关键思路论文提出了一个名为CC-OCR的综合基准测试,涵盖多种场景、任务和挑战。CC-OCR包括四个以OCR为中心的赛道:多场景文本阅读、多语言文本阅读、文档解析和关键信息提取。与现有基准测试相比,CC-OCR更加全面,能够更有效地评估LMMs在OCR任务中的表现。
- 其它亮点CC-OCR包含39个子集,共7,058张全标注图像,其中41%来自实际应用。论文对九个领先的LMMs进行了评估,揭示了这些模型在文本定位、多方向识别和重复幻觉等方面的优势和不足。此外,该基准测试的发布为未来的研究提供了丰富的资源和工具,有助于推动OCR技术的发展。
- 近年来,关于OCR和多模态模型的研究不断涌现。例如,《Multi-Modal Pre-training for Document Understanding》和《LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding》等论文探讨了如何利用多模态预训练来提升文档理解能力。此外,《DocBank: A Large-Scale Dataset for Document Layout Analysis》提出了一种大规模的数据集,用于文档布局分析。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流