OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation

2024年12月03日
  • 简介
    检索增强生成(RAG)通过整合外部知识来减少大型语言模型(LLM)的幻觉现象,并在不重新训练的情况下引入最新信息。作为RAG的重要组成部分,外部知识库通常通过从非结构化PDF文档中提取结构化数据使用光学字符识别(OCR)技术构建。然而,由于OCR预测的不完美性和结构化数据固有的非均匀表示,知识库不可避免地包含各种OCR噪声。在本文中,我们介绍了OHRBench,这是第一个用于理解OCR对RAG系统级联影响的基准。OHRBench包括从六个现实世界RAG应用领域精心挑选的350个非结构化PDF文档,以及从文档中的多模态元素衍生出的问题和答案,这些内容对现有的RAG OCR解决方案提出了挑战。为了更好地理解OCR对RAG系统的影响,我们确定了两种主要类型的OCR噪声:语义噪声和格式噪声,并应用扰动生成具有不同程度这两种OCR噪声的一系列结构化数据。利用OHRBench,我们首先对当前的OCR解决方案进行了全面评估,揭示了没有一种方案能够胜任为RAG系统构建高质量知识库的任务。然后,我们系统地评估了这两种噪声类型的影响,并展示了RAG系统的脆弱性。此外,我们还讨论了在RAG系统中不使用OCR而采用视觉-语言模型(VLM)的潜力。代码:https://github.com/opendatalab/OHR-Bench
  • 图表
  • 解决问题
    该论文旨在解决光学字符识别(OCR)在构建用于检索增强生成(RAG)系统的知识库时引入的噪声问题。这是一个新的问题,因为现有的研究主要集中在提高OCR的准确性上,而较少关注这些噪声对RAG系统性能的影响。
  • 关键思路
    论文的关键思路是通过引入OHRBench这一基准测试平台,系统地评估OCR噪声对RAG系统的影响。OHRBench包含从六个实际应用领域精心挑选的350份非结构化PDF文档,并通过扰动生成不同类型的OCR噪声数据集。这种方法不仅能够评估现有OCR解决方案的有效性,还能揭示RAG系统在面对不同类型和程度的噪声时的脆弱性。
  • 其它亮点
    1. OHRBench是首个专门针对OCR噪声对RAG系统影响的基准测试平台。 2. 论文识别并分类了两种主要的OCR噪声类型:语义噪声和格式噪声。 3. 实验设计全面,包括对多种OCR解决方案的评估,以及对不同噪声水平下RAG系统性能的分析。 4. 提供了开源代码,方便其他研究者复现实验结果并进一步探索。 5. 讨论了使用视觉-语言模型(VLMs)替代OCR的可能性,为未来的研究提供了新的方向。
  • 相关研究
    1. "Improving OCR Quality for Historical Documents Using Deep Learning" - 这篇论文探讨了如何利用深度学习技术提高历史文献的OCR质量。 2. "Evaluating the Impact of Noisy Data on Knowledge Graph Construction" - 该研究评估了噪声数据对知识图谱构建的影响。 3. "Vision-Language Pre-training for Document Understanding" - 这篇论文介绍了如何利用视觉-语言预训练模型来理解文档内容。 4. "Robust Retrieval-Augmented Generation with Noisy Knowledge Bases" - 该研究探讨了如何在噪声知识库中实现鲁棒的检索增强生成。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论