Rationale-based Ensemble of Multiple QA Strategies for Zero-shot Knowledge-based VQA

2024年06月18日
  • 简介
    知识驱动的视觉问答(K-VQA)需要使用超出图像所示的背景知识。目前的零样本K-VQA方法通常将图像翻译为单一类型的文本决策上下文,并使用基于文本的模型来回答问题,这与K-VQA问题通常需要结合多个问答策略的事实相冲突。基于此,我们提出了基于理性的答案上下文策略集成(REACT)来实现多种问答策略的动态集成,包括答案候选生成(ACG)和基于理性的策略融合(RSF)。在ACG中,我们生成三个不同的决策上下文,为每个问题提供不同的策略,从而生成三个答案候选。RSF从决策上下文中生成自动和机械的理性,以便模型从所有候选答案中选择正确答案。我们在OK-VQA和A-OKVQA数据集上进行了全面的实验,我们的方法在所有数据集上都显著优于基于LLM的现有基线。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决知识驱动的视觉问答(K-VQA)中的零样本问题,即需要使用超出图像所示的背景知识。当前的零样本K-VQA方法通常将图像转换为单一类型的文本决策上下文,并使用基于文本的模型来回答问题,这与K-VQA问题通常需要结合多种问答策略的事实相冲突。作者提出了一种基于理由的答案上下文策略集成(REACT)方法,以实现多种问答策略的动态集成。在ACG中,作者生成三种不同的决策上下文,为每个问题提供不同的策略,从而生成三个答案候选项。在RSF中,作者从决策上下文中生成自动和机械的理由,以便模型从所有候选项中选择正确的答案。
  • 关键思路
    本论文的关键思路是使用基于理由的答案上下文策略集成(REACT)方法,以实现多种问答策略的动态集成,从而解决知识驱动的视觉问答(K-VQA)中的零样本问题。
  • 其它亮点
    本论文在OK-VQA和A-OKVQA数据集上进行了全面的实验,结果表明,REACT方法在所有数据集上都显著优于基于LLM的现有基线。此外,本论文的方法还具有自动生成和机械化理由的优点。
  • 相关研究
    近期在这个领域中,还有一些相关的研究被进行,如《A Comprehensive Survey of Deep Learning for Visual Question Answering》、《Visual Question Answering: A Survey of Methods and Datasets》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问