- 简介本文介绍了“文本中心视觉问答(TEC-VQA)”在适当格式下不仅有助于文本中心视觉环境中的人机交互,而且还作为事实上的黄金代理,用于评估文本中心场景理解领域中的AI模型。然而,大多数TEC-VQA基准测试都专注于高资源语言,如英语和汉语。尽管有先驱性的工作使用翻译引擎扩展非文本中心VQA数据集中的多语言QA对,但是当应用于TEC-VQA时,基于翻译的协议会遇到重大的“视觉-文本不对齐”问题。具体而言,它优先考虑问题-答案对中的文本,而忽略图像中存在的视觉文本。此外,它没有充分解决与微妙含义、上下文扭曲、语言偏见和问题类型多样性相关的挑战。本文解决了多语言TEC-VQA任务,并提供了一个名为MTVQA的高质量人类专家注释的多语言基准测试,涵盖9种不同语言。据我们所知,MTVQA是第一个为文本中心场景提供人类专家注释的多语言TEC-VQA基准测试。此外,通过在我们的MTVQA数据集上评估包括GPT-4V在内的几种最先进的多模态大语言模型(MLLMs),可以明显看出仍有性能提升的空间,凸显了我们数据集的价值。我们希望这个数据集能够为社区内的研究人员提供新的视角和灵感。MTVQA数据集将在https://huggingface.co/datasets/ByteDance/MTVQA上提供。
- 图表
- 解决问题本文试图解决多语言文本中心视觉问答(TEC-VQA)的问题,提供一个高质量的多语言数据集MTVQA,并评估现有的多模态大语言模型(MLLMs)在该数据集上的表现。
- 关键思路本文提供了一个新的多语言TEC-VQA数据集MTVQA,并评估了现有的多模态大语言模型在该数据集上的表现,结果表明仍有提升空间。
- 其它亮点本文提供了一个高质量的多语言TEC-VQA数据集MTVQA,该数据集包含9种不同语言的人工专家注释。作者评估了几种最先进的多模态大语言模型(MLLMs),包括GPT-4V,结果表明仍有提升空间。该数据集将公开提供。
- 最近的相关研究主要集中在扩展多语言问答对,但是这种基于翻译引擎的方法在应用于TEC-VQA时遇到了“视觉-文本不匹配”的问题。本文提供了一个新的多语言TEC-VQA数据集MTVQA,是第一个提供人工专家注释的多语言TEC-VQA基准数据集。
沙发等你来抢
去评论
评论
沙发等你来抢