Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning

简介

大型语言模型配备检索增强生成（RAG）是一个新兴领域，旨在通过利用外部知识库来增强回答能力。虽然RAG与仅限于语言的模型的应用已经得到了广泛的探索，但其在多模式视觉语言模型中的应用仍处于初级阶段。多模式RAG的主要目标是培养模型对相关查询做出推理的能力，而不仅仅是生成答案。为此，我们引入了一种新颖的多模式RAG框架，名为RMR（检索与推理相遇）。RMR框架采用双模式检索模块来识别最相关的问题-答案对，然后这些对作为多模式推理过程的支架。这种无需训练的方法不仅鼓励模型深入参与检索内容中固有的推理过程，而且有助于生成精确且丰富可解释的答案。令人惊讶的是，仅利用从小学和高中科学课程中收集的ScienceQA数据集，RMR显著提高了各种视觉语言模型在一系列基准数据集上的表现，包括A-OKVQA，MMBench和SEED。这些结果突显了我们的多模式检索和推理机制提高视觉语言模型推理能力的巨大潜力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探索如何将Retrieval-augmented generation (RAG)应用于多模态视觉语言模型中，以提高其推理能力。
关键思路

该论文提出了一种名为Retrieval Meets Reasoning (RMR)的多模态RAG框架，通过双模态检索模块识别最相关的问答对，作为多模态推理过程的支架，从而提高模型的推理能力。
其它亮点

该论文使用了ScienceQA数据集，证明了RMR框架可以显著提高各种视觉语言模型在A-OKVQA、MMBench和SEED等基准数据集上的性能。该方法不需要训练，可以鼓励模型深入参与检索内容中固有的推理过程，并且可以生成精确而丰富的答案。
相关研究

最近的相关研究包括：《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》、《Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments》等。

Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning

提问交流

提问交流