- 简介本文讨论了基于视觉信息的对话,即视觉问答(VQA),由于过于依赖指令信息,往往存在歧义问题。这一问题在某些语言中尤为严重,例如日语常常省略主观或客观术语。这些问题通常可以通过对话情境中的上下文信息来澄清,例如与用户的共同注意力或用户注视信息。本研究提出了基于注视信息的VQA数据集(GazeVQA),通过注视信息来澄清歧义问题,重点关注补充注视信息的澄清过程。我们还提出了一种利用注视目标估计结果来提高GazeVQA任务准确性的方法。实验结果表明,所提出的方法在GazeVQA系统中有时能够提高性能,并确定了一些需要改进的GazeVQA任务的典型问题。
-
- 图表
- 解决问题本论文旨在解决视觉问答中存在的指令信息引起的歧义问题,特别是在日语等省略主观或客观术语的语言中。同时,论文探讨利用用户注视信息来澄清歧义问题。
- 关键思路本论文提出了一种利用用户注视信息来澄清歧义问题的方法,并构建了一个基于注视信息的视觉问答数据集(GazeVQA)。同时,论文还提出了一种利用注视目标估计结果来提高GazeVQA任务准确性的方法。
- 其它亮点本论文的亮点包括:1. 提出了基于注视信息的视觉问答数据集(GazeVQA);2. 提出了一种利用注视目标估计结果来提高GazeVQA任务准确性的方法;3. 实验结果表明,该方法可以提高GazeVQA系统的性能;4. 论文指出了GazeVQA任务需要改进的典型问题。
- 在相关研究方面,最近的研究包括:1.《VQA: Visual Question Answering》;2.《Visual Question Answering: A Survey of Methods and Datasets》;3.《Gaze-Augmented Human-Object Interaction Recognition》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流