- 简介我们探讨了视觉语言模型(VLM)中的多步推理问题。这个问题很具挑战性,因为包含多个步骤的视觉和语言处理的推理数据很少。为了克服这个挑战,我们首先引入了一种从最简单到最复杂的视觉推理范式,该范式交织了将问题分解为子问题和调用外部工具解决子问题的步骤。基于这个范式,我们进一步提出了一种新的数据合成方法,可以自动地从底部开始为图像创建问题和多步推理路径。我们的方法将复杂的合成任务分成了几个简单的子任务,并(几乎完全)依赖于开源模型来完成这些子任务。因此,整个合成过程具有可重复性和成本效益,并且合成的数据质量得到了保证。使用这种方法,我们构建了50k个视觉推理示例。然后,我们通过监督微调开发了一个视觉推理器,能够以即插即用的方式普遍增强现有VLMs的推理能力。广泛的实验表明,视觉推理器可以在四个VQA基准测试中持续且显著地提高四个VLMs的性能。我们的代码和数据集可在https://github.com/steven-ccq/VisualReasoner上获得。
-
- 图表
- 解决问题本论文旨在探索视觉语言模型(VLM)中的多步推理问题,提出了一种最少-最多视觉推理范式和一种新的数据合成方法,以构建高质量的视觉推理数据集。
- 关键思路论文提出的最少-最多视觉推理范式将问题分解为子问题,并通过调用外部工具解决子问题,进而解决多步推理问题。其新颖之处在于提出了一种自动化的数据合成方法,可以自动生成问题和推理路径,从而构建大规模的视觉推理数据集。
- 其它亮点论文的亮点在于提出了一种自动化的数据合成方法,该方法将复杂的合成任务分解为几个简单的子任务,并且几乎完全依赖于开源模型来完成子任务,因此合成过程具有可重复性和成本效益,并且合成的数据具有质量保证。论文还通过有监督微调开发了一个视觉推理器,可以在插拔式的方式下提高现有VLM的推理能力。实验结果表明,该视觉推理器可以显著提高四个VLM在四个VQA基准测试上的性能。
- 最近的相关研究包括: 'CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning', 'The GQA Dataset: A New Benchmark for Real-World Visual Reasoning and Compositional Question Answering', 'Visual7W: Grounded Question Answering in Images', 'The VQA Dataset: Towards a Benchmark for Visual Question Answering'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流