Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering

2024年06月03日
  • 简介
    零样本视觉问答(VQA)是一项需要跨模态推理的具有挑战性的任务。虽然一些现有方法依赖于Chain of Thoughts(CoT)框架中的单个理由,但它们可能无法捕捉VQA问题的复杂性。另一方面,一些使用多个理由的方法仍可能存在多样性低、模态不对齐和检索融合效率低等问题。针对这些挑战,我们提出了一种新颖的多模态推理方法——混合理由(MoR),它混合了多个VQA理由。MoR使用单个冻结的视觉语言预训练模型(VLPM)模型来动态生成、检索和融合多模态思想。我们使用OFA和VL-T5这两个代表性的骨干网络在两个具有挑战性的VQA数据集NLVR2和OKVQA上评估MoR。MoR在NLVR2上实现了12.43%的准确度提高,在OKVQA-S(OKVQA的科技类别)上实现了2.45%的准确度提高。
  • 作者讲解
  • 图表
  • 解决问题
    提出一种新的多模态推理方法,用于解决零样本视觉问答任务中的多模态推理问题。
  • 关键思路
    采用混合多种推理方式的方法,通过动态生成、检索和融合多模态思路来解决多模态推理问题。
  • 其它亮点
    该方法在NLVR2和OKVQA数据集上进行了评估,取得了较好的结果。实验结果表明,该方法在多模态推理方面具有较好的多样性、模态对齐性和检索融合效率。
  • 相关研究
    目前已有的方法包括CoT框架和使用多个推理方式的方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问