Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering

简介

零样本视觉问答（VQA）是一项需要跨模态推理的具有挑战性的任务。虽然一些现有方法依赖于Chain of Thoughts（CoT）框架中的单个理由，但它们可能无法捕捉VQA问题的复杂性。另一方面，一些使用多个理由的方法仍可能存在多样性低、模态不对齐和检索融合效率低等问题。针对这些挑战，我们提出了一种新颖的多模态推理方法——混合理由（MoR），它混合了多个VQA理由。MoR使用单个冻结的视觉语言预训练模型（VLPM）模型来动态生成、检索和融合多模态思想。我们使用OFA和VL-T5这两个代表性的骨干网络在两个具有挑战性的VQA数据集NLVR2和OKVQA上评估MoR。MoR在NLVR2上实现了12.43％的准确度提高，在OKVQA-S（OKVQA的科技类别）上实现了2.45％的准确度提高。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出一种新的多模态推理方法，用于解决零样本视觉问答任务中的多模态推理问题。
关键思路

采用混合多种推理方式的方法，通过动态生成、检索和融合多模态思路来解决多模态推理问题。
其它亮点

该方法在NLVR2和OKVQA数据集上进行了评估，取得了较好的结果。实验结果表明，该方法在多模态推理方面具有较好的多样性、模态对齐性和检索融合效率。
相关研究

目前已有的方法包括CoT框架和使用多个推理方式的方法。

Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering

提问交流

提问交流