A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous Japanese Questions

向作者提问

NEW

简介

本文讨论了基于视觉信息的对话，即视觉问答（VQA），由于过于依赖指令信息，往往存在歧义问题。这一问题在某些语言中尤为严重，例如日语常常省略主观或客观术语。这些问题通常可以通过对话情境中的上下文信息来澄清，例如与用户的共同注意力或用户注视信息。本研究提出了基于注视信息的VQA数据集（GazeVQA），通过注视信息来澄清歧义问题，重点关注补充注视信息的澄清过程。我们还提出了一种利用注视目标估计结果来提高GazeVQA任务准确性的方法。实验结果表明，所提出的方法在GazeVQA系统中有时能够提高性能，并确定了一些需要改进的GazeVQA任务的典型问题。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决视觉问答中存在的指令信息引起的歧义问题，特别是在日语等省略主观或客观术语的语言中。同时，论文探讨利用用户注视信息来澄清歧义问题。
关键思路

本论文提出了一种利用用户注视信息来澄清歧义问题的方法，并构建了一个基于注视信息的视觉问答数据集（GazeVQA）。同时，论文还提出了一种利用注视目标估计结果来提高GazeVQA任务准确性的方法。
其它亮点

本论文的亮点包括：1. 提出了基于注视信息的视觉问答数据集（GazeVQA）；2. 提出了一种利用注视目标估计结果来提高GazeVQA任务准确性的方法；3. 实验结果表明，该方法可以提高GazeVQA系统的性能；4. 论文指出了GazeVQA任务需要改进的典型问题。
相关研究

在相关研究方面，最近的研究包括：1.《VQA: Visual Question Answering》；2.《Visual Question Answering: A Survey of Methods and Datasets》；3.《Gaze-Augmented Human-Object Interaction Recognition》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问