SCAN: Semantic Document Layout Analysis for Textual and Visual Retrieval-Augmented Generation

2025年05月20日
  • 简介
    随着大型语言模型(LLMs)和视觉-语言模型(VLMs)的日益普及,针对检索增强生成(RAG)和视觉 RAG 等应用的丰富文档分析技术正受到越来越多的关注。近期研究表明,使用 VLMs 可以实现更好的 RAG 性能,但处理富信息文档仍然是一个挑战,因为单页文档中包含大量信息。在本文中,我们提出了 SCAN(**S**emanti**C** Document Layout **AN**alysis),一种新颖的方法,能够增强与视觉丰富文档配合使用的文本和视觉检索增强生成(RAG)系统。这是一种对 VLM 友好的方法,能够以适当的语义粒度识别文档组件,在保留上下文的同时提高处理效率。SCAN 采用粗粒度语义方法,将文档划分为连贯的区域,每个区域覆盖连续的组件。我们通过微调对象检测模型并使用精细标注的数据集训练了 SCAN 模型。我们的实验结果表明,在英语和日语数据集上应用 SCAN 可以使端到端的文本 RAG 性能提升高达 9.0%,视觉 RAG 性能提升高达 6.4%,优于传统方法以及商业文档处理解决方案。
  • 图表
  • 解决问题
    论文试图解决在视觉和文本结合的RAG系统中,处理富文档时信息量过大导致效率和效果难以兼顾的问题。这是一个当前领域内的关键问题,但尚未有特别高效的解决方案。
  • 关键思路
    SCAN通过引入一种语义文档布局分析方法,将富文档划分为具有适当语义粒度的连贯区域,从而平衡了上下文保留与处理效率。这种方法不仅支持VLMs对文档的高效处理,还增强了文本和视觉RAG系统的性能,相比传统方法更具创新性。
  • 其它亮点
    实验设计包括跨语言(英语和日语)数据集的测试,验证了SCAN在不同场景下的普适性和有效性。此外,SCAN在文本RAG和视觉RAG上分别提升了9.0%和6.4%的性能,显著优于商业解决方案。论文提到模型基于改进的对象检测模型进行训练,并使用了复杂的标注数据集,但未明确提及代码开源情况。未来值得深入研究的方向包括多模态文档处理的进一步优化以及更多语言的支持。
  • 相关研究
    最近相关研究包括:1) 'LayoutLMv2: Multimodal Pre-training for Visually-Rich Document Understanding' 提出了结合文本和图像特征的预训练模型;2) 'DocFormer: Transformer-based Representation Learning for Documents' 强调了文档结构化信息的重要性;3) 'MFD-Net: Multi-Feature Distillation Network for Document Image Classification' 针对文档图像分类任务提出了多特征蒸馏网络。这些研究共同推动了富文档分析技术的发展。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论