MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations

2024年07月01日
  • 简介
    这篇文章讨论了理解具有丰富布局和多模态组件的文档的问题,这是一个长期而实用的任务。最近,大型视觉语言模型(LVLM)在各种任务中取得了显著进展,特别是在单页文档理解方面。然而,它们在长文本文档理解方面的能力仍然是一个未解决的问题。本文介绍了MMLongBench-Doc,这是一个长文本、多模态的基准测试,包括1,062个专家注释的问题。与以前的数据集不同,它是基于130个长PDF格式的文档构建的,平均有49.4页和20,971个文本标记。为了全面评估,这些问题的答案依赖于来自不同来源(文本、图像、图表、表格和布局结构)和不同位置(即页码)的证据。此外,33.2%的问题是跨页问题,需要跨多个页面的证据。22.8%的问题被设计成无法回答,以检测潜在的幻觉。对14个LVLM的实验表明,长文本文档理解极大地挑战了当前的模型。值得注意的是,表现最佳的模型GPT-4o仅达到了42.7%的F1分数,而第二名的GPT-4V得分为31.4%。此外,12个LVLM(除了GPT-4o和GPT-4V)甚至表现比它们的LLM对应模型更差,这些模型使用有损解析OCR文档作为输入。这些结果验证了未来研究朝着更具能力的长文本LVLM的方向是必要的。项目页面:https://mayubo2333.github.io/MMLongBench-Doc。
  • 图表
  • 解决问题
    本论文旨在解决长文档理解(DU)中的多模态组件和丰富布局的问题,提出了MMLongBench-Doc数据集,评估了14个LVLM模型的性能。
  • 关键思路
    论文提出了一个长文档理解的多模态基准数据集MMLongBench-Doc,其中包含130个PDF格式的长文档,共1062个问题,要求模型从不同的来源和位置提取证据来回答问题,其中33.2%的问题需要跨多个页面收集证据。实验结果表明,当前的LVLM模型在长文档理解方面仍然存在挑战,需要进一步研究。
  • 其它亮点
    本论文构建了一个新的长文档理解的多模态基准数据集MMLongBench-Doc,提出了跨多个页面的问题和检测潜在幻觉的问题,评估了14个LVLM模型的性能。实验结果表明,当前的LVLM模型在长文档理解方面仍然存在挑战,需要进一步研究。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如ACL2021的论文《DocVQA: A Dataset for VQA on Document Images》和EMNLP2020的论文《LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问