Enhancing Question Answering on Charts Through Effective Pre-training Tasks

2024年06月14日
  • 简介
    为了完全理解一份文档,仅仅使用文本信息是不够的。我们还需要理解视觉线索,如布局和图表。虽然目前最先进的文档理解方法(基于OCR和无OCR)效果良好,但对它们的能力和限制进行彻底的分析尚未进行。因此,在这项工作中,我们解决了当前视觉问答模型在应用于图表和绘图时的局限性。为了调查最先进模型的缺点,我们使用ChartQA作为案例研究,进行了全面的行为分析。我们的研究结果表明,现有模型在回答与图表结构和视觉上下文以及数字信息有关的问题时表现特别差。为了解决这些问题,我们提出了三个简单的预训练任务,以加强现有模型在结构-视觉知识和对数字问题的理解方面。我们在三个图表数据集上评估了我们的预训练模型(称为MatCha-v2),包括提取和抽象问题数据集,观察到它相对于基线模型平均提高了1.7%。
  • 图表
  • 解决问题
    本论文旨在解决当前文档理解模型在处理图表和绘图时的局限性,特别是在回答与图表结构、视觉上下文以及数字信息相关的问题时的性能较低。
  • 关键思路
    论文提出了三个简单的预训练任务,以加强模型在结构视觉知识和数字问题的理解方面,从而提高图表问答(ChartQA)模型的性能。
  • 其它亮点
    论文通过 ChartQA 作为案例研究,对现有模型进行了全面的行为分析,提出了预训练任务以改进模型性能。作者在三个图表数据集上进行了实验,MatCha-v2 模型相比基线模型平均提高了 1.7% 的性能。
  • 相关研究
    与本论文相关的研究包括文档理解、视觉问答和图表问答等领域。其中一些论文包括:《A Comprehensive Survey of Text Mining in the Era of Big Data》、《Visual Question Answering: A Survey of Methods and Datasets》、《GraphQA: A New Challenge for Graph Understanding and Reasoning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论