Find The Gap: Knowledge Base Reasoning For Visual Question Answering

2024年04月16日
  • 简介
    我们分析了基于知识的视觉问答,对于这种问答,模型需要将问题与视觉模态联系起来,并从给定的大型知识库中检索相关知识以便回答问题。我们的分析有两个方面,一个是基于设计神经网络结构并从头开始训练,另一个是基于大型预训练语言模型(LLM)。我们的研究问题是:1)我们是否可以通过显式的监督检索相关的知识库信息来有效地增强模型,以解决KB-VQA问题?2)任务特定和基于LLM的模型在整合视觉和外部知识以及跨越两种信息源的多跳推理方面表现如何?3)LLM的隐式知识是否足以解决KB-VQA问题,以及在多大程度上可以替代显式知识库?我们的结果表明,赋予任务特定和LLM模型监督外部和视觉知识检索模型的能力具有积极的影响。我们的发现表明,虽然LLM在1跳推理方面更强,但与我们微调的NN模型相比,在2跳推理方面表现不佳,即使两种模态的相关信息都可用于模型。此外,我们观察到,在涉及知识库的问题上,LLM模型优于NN模型,这证实了LLM中隐式知识的有效性,但它们并不能消除对外部知识库的需求。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决基于知识的视觉问答问题,即如何将问题与视觉模式相结合并从给定的大型知识库中检索相关知识以便回答问题。论文探讨了两种解决方案:基于神经网络的模型和基于预训练语言模型(LLM)的模型。研究问题包括:1)是否可以通过显式监督检索相关知识来有效地增强模型以解决KB-VQA问题?2)在整合视觉和外部知识以及在两种信息源之间进行多跳推理方面,任务特定和LLM模型的表现如何?3)LLM的隐式知识是否足以解决KB-VQA问题,并且在多大程度上可以替换显式知识库?
  • 关键思路
    论文的关键思路是通过监督检索相关知识来增强模型,以便更好地解决基于知识的视觉问答问题。在两种解决方案中,基于预训练语言模型(LLM)的模型在一跳推理方面表现更好,但在两跳推理方面表现不如基于神经网络的模型。此外,LLM模型在涉及知识库的问题上表现更好,但仍需要外部知识库的支持。
  • 其它亮点
    论文的实验结果表明,通过显式监督检索相关知识可以增强任务特定和LLM模型的表现。研究发现,尽管LLM模型在一跳推理方面更强,但在两跳推理方面表现不佳,即使模型可以获得来自两种信息源的相关信息。此外,LLM模型在涉及知识库的问题上表现更好,这证实了LLM模型中隐式知识的有效性,但仍需要外部知识库的支持。论文使用了多个数据集进行实验,并提供了开源代码。
  • 相关研究
    最近在这个领域中,还有其他相关研究。例如,题为“DualVD:An Adaptive Dual Encoding Model for Deep Visual Question Answering”的论文提出了一种自适应双重编码模型,以提高视觉问答的性能。另一篇题为“GQA:A New Dataset for Real-World Visual Reasoning and Compositional Question Answering”的论文介绍了一个新的数据集,旨在测试模型的推理能力和常识知识。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问