视觉问答任务作为一种交互性任务,特别是现实场景中的问答往往需要先验与常识知识的引入,模型不仅需要完成视觉和语言模态上的表征学习,还需要外部知识的整合与逻辑关系的推理。
本次分享我们将介绍两篇来自AAAI2022和一篇来自EMNLP的知识增强VQA相关论文。第一篇文章提出了一种多步图推理模型;第二篇文章提出了基于GPT-3的用于KB-VQA任务的推理模型;第三篇文章提出了一种新的VQA数据增强方式。
文章概览
1. Dynamic Key-Value Memory Enhanced Multi-Step Graph Reasoning for Knowledge-Based Visual Question Answering
论文地址:https://arxiv.org/abs/2203.02985
本文提出了一种多步图推理模型,该模型包含一种新颖的动态记忆增强模块,它分别在键值记忆三元组和图像空间感知图上迭代地执行显式和隐式推理,以推断出 KB-VQA 任务的答案。模型在 KRVQR 和 FVQA 数据集上都实现了SOTA的性能。
2. An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA
论文地址:https://arxiv.org/abs/2109.05014
本文使用GPT-3这一语言预训练模型,基于Prompt的小样本学习方法(few-shot learning),提出了PICa这一模型。PICa 不使用显式结构化知识库来检索和推理外部知识,而是通过Prompting GPT-3 来获取和处理相关知识。PICa继承了 GPT-3 强大的小样本学习能力,将基于OK-VQA数据集上的准确率提高到了48%,是目前的SOTA。
3. Discovering the Unknown Knowns: Turning Implicit Knowledge in the Dataset into Explicit Training Examples for Visual Question Answering
论文地址:https://arxiv.org/abs/2109.06122
本文提出了 SIMPLEAUG 这一数据增强方式,通过将已经隐藏在数据集中的信息转化为显式的 IQA 三元组用于训练。这一方法证明了像对象检测这样的中级视觉任务可以有效地使 VQA 受益。其次, SIMPLEAUG 可以有效的将手头的东西(即“已知”)转化为 VQA 模型不知道的示例(即,“未知”)。SIMPLEAUG 可以显着提高 VQA v2 和 VQA-CP v2 上的 VQA 模型的准确性。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢