这篇文章讨论了理解具有丰富布局和多模态组件的文档的问题,这是一个长期而实用的任务。最近,大型视觉语言模型(LVLM)在各种任务中取得了显著进展,特别是在单页文档理解方面。然而,它们在长文本文档理解方面的能力仍然是一个未解决的问题。本文介绍了MMLongBench-Doc,这是一个长文本、多模态的基准测试,包括1,062个专家注释的问题。与以前的数据集不同,它是基于130个长PDF格式的文档构建的,平均有49.4页和20,971个文本标记。为了全面评估,这些问题的答案依赖于来自不同来源(文本、图像、图表、表格和布局结构)和不同位置(即页码)的证据。此外,33.2%的问题是跨页问题,需要跨多个页面的证据。22.8%的问题被设计成无法回答,以检测潜在的幻觉。对14个LVLM的实验表明,长文本文档理解极大地挑战了当前的模型。值得注意的是,表现最佳的模型GPT-4o仅达到了42.7%的F1分数,而第二名的GPT-4V得分为31.4%。此外,12个LVLM(除了GPT-4o和GPT-4V)甚至表现比它们的LLM对应模型更差,这些模型使用有损解析OCR文档作为输入。这些结果验证了未来研究朝着更具能力的长文本LVLM的方向是必要的。项目页面:https://mayubo2333.github.io/MMLongBench-Doc。
提问交流