TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy

2024年06月03日
  • 简介
    本文介绍了一种新型的大型视觉-语言模型TabPedia,它配备了一个概念协同机制,旨在解决表格中的结构和内容对机器理解的挑战。传统方法通常为各个任务设计特定的体系结构和目标,导致模态隔离和复杂的工作流程。TabPedia的概念协同机制将所有涉及的多样化视觉表格理解(VTU)任务和多源视觉嵌入抽象为概念,从而实现了统一的框架,可以利用大型语言模型(LLMs)无缝集成VTU任务,例如表格检测、表格结构识别、表格查询和表格问答。此外,概念协同机制使表格感知相关和理解相关任务能够和谐工作,因为它们可以有效地利用相应源感知嵌入的所需线索。此外,为了更好地评估VTU任务在实际场景中的表现,作者建立了一个新的、综合的表格视觉问答基准ComTQA,包括约9,000个问答对。在各种公共基准测试中进行的广泛的定量和定性实验验证了TabPedia的有效性。优越的性能进一步证实了当所有概念协同工作时,使用LLMs理解视觉表格的可行性。ComTQA基准已在https://huggingface.co/datasets/ByteDance/ComTQA上公开发布。源代码和模型将稍后发布。
  • 图表
  • 解决问题
    本论文旨在解决表格理解中存在的多个任务和数据来源之间的难以协调的问题,提出了一种新的大型视觉-语言模型TabPedia,并且建立了一个新的综合的表格视觉问答基准ComTQA。
  • 关键思路
    TabPedia采用概念协同机制,将涉及的各种视觉表格理解任务和多源视觉嵌入抽象为概念,从而实现了对表格检测、表格结构识别、表格查询和表格问答等任务的无缝集成,同时也解决了表格感知相关和理解相关任务之间的协调问题。
  • 其它亮点
    论文提出的TabPedia模型在各种公共基准测试中展示了卓越的表现,特别是在新建的ComTQA基准测试中。ComTQA基准测试包含了约9000个问题-答案对,可以更好地评估表格视觉问答任务在实际场景中的表现。论文还开源了ComTQA基准测试和代码,并且展示了TabPedia模型的可行性。
  • 相关研究
    最近的相关研究包括:《LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding》、《DocVQA: A Dataset for VQA on Document Images》、《TableBank: Table Benchmark for Image-based Table Detection and Recognition》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论