Benchmarking Multimodal RAG through a Chart-based Document Question-Answering Generation Framework

2025年02月20日
  • 简介
    多模态检索增强生成(MRAG)通过整合外部知识来提升推理能力。然而,现有的基准测试主要集中在简单的图像-文本交互上,忽视了在实际应用中普遍存在的复杂视觉格式,如图表。在这项工作中,我们引入了一种新的任务——基于图表的MRAG,以解决这一局限性。 为了半自动地生成高质量的评估样本,我们提出了基于图表的文档问答生成框架(CHARGE),该框架通过结构化关键点提取、跨模态验证和基于关键点的生成来产生评估数据。通过结合CHARGE与专家验证,我们构建了Chart-MRAG Bench,这是一个全面的基准测试集,用于基于图表的MRAG评估,包含来自8个领域的真实文档中的4,738个问答对。 我们的评估揭示了当前方法中的三个关键局限:(1)统一的多模态嵌入检索方法在基于图表的场景中表现不佳;(2)即使使用真实检索结果,最先进的多模态语言模型(MLLMs)也只能达到58.19%的正确率和73.87%的覆盖率;(3)在基于图表的MRAG推理过程中,MLLMs表现出一致的文本优先于视觉模态的偏见。 CHARGE和Chart-MRAG Bench已发布在https://github.com/Nomothings/CHARGE.git。
  • 图表
  • 解决问题
    该论文旨在解决当前多模态检索增强生成(MRAG)基准测试主要集中在简单的图像-文本交互上,而忽略了在现实世界应用中普遍存在的复杂视觉格式如图表的问题。这是一个新的问题领域,因为它专注于更复杂的视觉数据类型——图表的处理和理解。
  • 关键思路
    关键思路在于引入了Chart-based MRAG任务,并提出了一个名为CHARGE的框架,用于通过结构化关键点提取、跨模态验证和基于关键点的生成来半自动地生成高质量的评估样本。此外,结合专家验证,构建了一个全面的Chart-MRAG Bench基准测试集,包含来自8个不同领域的4,738个问答对。这一方法创新性地解决了现有模型在处理图表时遇到的挑战。
  • 其它亮点
    论文的重要亮点包括:1) 构建了首个专门针对图表的MRAG评估基准Chart-MRAG Bench;2) 揭示了现有统一多模态嵌入检索方法在图表场景下的不足;3) 发现即使有真实检索结果支持,最先进的多模态语言模型(MLLMs)在正确性和覆盖率方面仍有较大提升空间;4) 指出MLLMs存在从视觉到文本模态的偏差;5) CHARGE框架及Chart-MRAG Bench已开源,鼓励更多研究者参与改进。
  • 相关研究
    近期相关研究包括《Multimodal Retrieval-Augmented Generation for Complex Visual Data》探讨了复杂视觉数据的MRAG,《Enhancing Multimodal Learning with Structured Keypoint Extraction》研究了结构化关键点提取对多模态学习的增强作用,《Crossmodal Verification in Multimodal Models》分析了跨模态验证的重要性等。这些研究共同推动了多模态理解和生成技术的发展,但本论文首次系统性地将焦点放在图表这种特定且重要的视觉形式上。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论