Boter: Bootstrapping Knowledge Selection and Question Answering for Knowledge-based VQA

2024年04月22日
  • 简介
    基于知识的视觉问答(VQA)需要模型整合外部知识来回答关于视觉内容的问题。先前的方法大多遵循“检索和生成”的范式。它们最初使用预训练的检索器来获取相关的知识文档,随后利用这些文档来生成答案。虽然这些方法在任务中表现出了可观的性能,但它们存在一些限制:(1)它们使用独立的检索器仅基于查询和知识嵌入之间的相似性来获取知识,而没有评估知识文档是否真正有助于回答问题;(2)它们将图像转换为文本,然后在自然语言空间中进行检索和回答,这可能不能确保全面获取所有图像信息。为了解决这些限制,我们提出了Boter,这是一个新颖的框架,旨在利用多模态大语言模型(MLLM)的强大多模态感知能力来引导知识选择和问题回答。该框架由两个模块组成:Selector和Answerer,两者都由MLLM初始化,并通过简单循环进行参数高效微调:使用Selector在检索的知识文档中找到关键知识,然后使用它们来微调Answerer以预测答案;基于Answerer的预测和弱监督标签获得关键知识文档的伪标签,然后微调Selector以选择关键知识;重复上述步骤。我们的框架显著提高了基准在具有挑战性的开放领域知识问答基准(OK-VQA)上的性能,实现了62.83%的最新准确率。
  • 图表
  • 解决问题
    论文试图解决知识驱动的视觉问答中的知识选择和回答问题的问题,提出了一个新的框架 Boter。
  • 关键思路
    论文提出了一个基于 Multimodal Large Language Model 的框架 Boter,通过 Selector 和 Answerer 两个模块来解决知识选择和回答问题的问题,同时利用弱监督标签和模拟标签来进行训练。
  • 其它亮点
    论文在 OK-VQA 数据集上进行了实验,取得了 62.83% 的准确率,超过了之前的最高记录。同时,论文提出的框架可以有效地解决知识选择和回答问题的问题,并且在训练过程中利用了弱监督标签和模拟标签,提高了训练效率。
  • 相关研究
    在知识驱动的视觉问答领域,之前的方法主要采用“检索和生成”的范式。近期的相关研究包括:《Visual Question Answering with Memory-Augmented Networks》、《Dual Attention Networks for Multimodal Reasoning and Matching》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论