TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains

2024年04月30日
  • 简介
    本文建立了一个表格视觉问答基准,称为TableVQA-Bench,该基准是从现有的表格问答(QA)和表格结构识别数据集中衍生出来的。需要注意的是,现有的数据集没有包含图像或QA对,这是TableVQA的两个关键组成部分。因此,本文的主要目标是获取这些必要的组件。具体而言,图像是通过应用样式表或使用提出的表格渲染系统来获取的。QA对是通过利用大型语言模型(LLM)生成的,其中输入是文本格式的表格。最终,完成的TableVQA-Bench包括1,500个QA对。我们全面比较了各种多模式大型语言模型(MLLM)在TableVQA-Bench上的性能。从我们的实验中,GPT-4V在商业和开源MLLM中获得了最高的准确性。此外,我们发现视觉查询的数量在TableVQA性能中起着重要作用。为了进一步分析MLLM与它们的LLM骨干的能力,我们分别向MLLM提供图像格式的表格和向LLM提供文本格式的表格进行研究。我们的研究结果表明,处理视觉输入比处理文本输入更具挑战性,尽管MLLM通常需要比LLM更高的计算成本,但其表现却更低。提出的TableVQA-Bench和评估代码可在\href{https://github.com/naver-ai/tablevqabench}{https://github.com/naver-ai/tablevqabench}上获得。
  • 图表
  • 解决问题
    本论文建立了一个表格视觉问答的基准,即TableVQA-Bench,旨在解决现有数据集中缺乏图像和QA对的问题。
  • 关键思路
    通过应用样式表或使用提出的表格渲染系统来获取图像,并利用大型语言模型(LLM)生成QA对,最终建立了包含1,500个QA对的TableVQA-Bench,并对各种多模态大型语言模型(MLLMs)在TableVQA-Bench上的表现进行了全面比较。
  • 其它亮点
    实验发现GPT-4V在商业和开源MLLMs中的表现最好,而视觉查询的数量对TableVQA的性能有重要影响。另外,研究发现处理视觉输入比处理文本输入更具挑战性,尽管通常需要比LLMs更高的计算成本。TableVQA-Bench和评估代码已在GitHub上开源。
  • 相关研究
    最近的相关研究包括TableQA和TableBank等表格QA数据集,以及多模态QA和大型语言模型的相关研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论