Multimodal Table Understanding

2024年06月12日
  • 简介
    虽然之前的表格理解方法已经取得了很大的进展,包括基于大型语言模型(LLMs)的近期方法,但它们严重依赖于这样的前提:给定的表格必须被转换成某种文本序列(如Markdown或HTML)以作为模型输入。然而,在某些实际场景下很难获得这样高质量的文本表格表示,而表格图像则更加易于获取。因此,如何直接使用直观的视觉信息来理解表格是开发更实用应用的一个关键和紧迫的挑战。在本文中,我们提出了一个新的问题,即多模态表格理解,其中模型需要根据给定的表格图像对各种与表格相关的请求生成正确的响应。为了促进模型的训练和评估,我们构建了一个名为MMTab的大规模数据集,它涵盖了广泛的表格图像、指令和任务。在此基础上,我们开发了一个名为Table-LLaVA的通用表格多模态大型语言模型(MLLM),在23个基准测试中,在保留和未保留的设置下,显著优于最近的开源MLLM基线。代码和数据可在以下网址找到:https://github.com/SpursGoZmy/Table-LLaVA。
  • 图表
  • 解决问题
    论文提出了一个新问题:如何直接理解表格图像并根据表格图像生成正确的响应,以解决在某些真实场景下难以获得高质量的文本表格表示的问题。
  • 关键思路
    论文提出了一种多模态表格理解方法,即使用直观的视觉信息直接理解表格,而不是将表格转换为文本序列。作者构建了一个大规模数据集MMTab,并开发了Table-LLaVA模型,它是一个通用的表格多模态大语言模型(MLLM),在23个基准测试中显著优于最近的开源MLLM基线。
  • 其它亮点
    论文的亮点包括:构建了一个大规模的数据集MMTab;提出了一种新的多模态表格理解方法;开发了一个通用的表格多模态大语言模型Table-LLaVA;在23个基准测试中显著优于最近的开源MLLM基线。作者还提供了代码和数据。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:"Table-to-text Generation by Structure-aware Seq2seq Learning","TableQA: Table Question Answering by Semantic Parsing with Contextual Knowledge"等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论