Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger

2025年06月09日
  • 简介
    近期,大型视觉语言模型(LVLMs)通过多模态检索增强生成(RAG)技术,在视觉问答(VQA)任务中取得了显著的性能提升。然而,现有方法仍然面临一些挑战,例如推理知识示例的匮乏以及检索到的知识导致的回答不稳定。为了解决这些问题,本文提出了一种名为RCTS的多模态RAG框架,通过构建一个富含推理上下文的知识库和一种基于树搜索的重排序方法来增强LVLMs的性能。具体而言,我们引入了一种自一致性评估机制,用于将内在的推理模式注入知识库以丰富其内容。此外,我们还提出了一种带有启发式奖励的蒙特卡洛树搜索(MCTS-HR)算法,用于优先选择最相关的知识示例。这确保了LVLMs能够利用高质量的上下文推理能力,从而生成更优且更一致的回答。大量实验表明,我们的框架在多个VQA数据集上达到了最先进的性能,并显著超越了上下文学习(ICL)和基础RAG方法。这一结果凸显了我们所构建的知识库和重排序方法在提升LVLMs性能方面的有效性。我们的代码已开源,可在以下地址获取:https://github.com/yannqi/RCTS-RAG。
  • 图表
  • 解决问题
    论文试图解决当前大型视觉语言模型(LVLMs)在视觉问答(VQA)任务中面临的两个主要问题:知识库中推理示例的稀缺性以及检索到的知识可能导致不一致的回答。这是一个已知但尚未完全解决的问题,特别是在多模态场景下。
  • 关键思路
    论文提出了一种名为RCTS的多模态RAG框架,通过构建一个包含内在推理模式的知识库,并引入自洽评估机制来丰富该知识库。此外,还提出了基于蒙特卡洛树搜索与启发式奖励(MCTS-HR)的重排序方法,以优先选择最相关的推理示例。这种方法不仅增强了LVLMs对高质量推理上下文的利用,还提高了回答的一致性和准确性。
  • 其它亮点
    1. 提出了Reasoning Context-enriched知识库和Tree Search重排序方法,显著提升了LVLMs在VQA任务中的表现;2. 使用了多个VQA数据集进行广泛实验,证明了方法的有效性;3. 开源代码(https://github.com/yannqi/RCTS-RAG),便于后续研究者复现和改进;4. 强调了自洽评估机制和MCTS-HR方法的重要性,为未来研究提供了新方向。
  • 相关研究
    近期相关研究包括:1. 'Flamingo: A Visual Language Model for Multimodal In-Context Learning' - 探讨了多模态情境学习的潜力;2. 'BLIP: Bootstrapping Language-Image Pre-training with Unified Vision-Language Representation' - 提出了统一视觉语言表示的方法;3. 'M6: A Large-Scale Multimodal Pre-trained Model' - 构建了一个大规模多模态预训练模型;4. 'VQA-ReGAT: Relation-Guided Graph Attention Network for Visual Question Answering' - 利用图注意力网络改进VQA性能。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论