MMSearch-R1: Incentivizing LMMs to Search

2025年06月25日
  • 简介
    在现实场景中稳健地部署大型多模态模型(LMMs)需要接入外部知识源,这是因为现实世界的信息具有复杂性和动态变化的特点。现有的方法,例如检索增强生成(RAG)和提示工程搜索代理,依赖于固定的流水线结构,常常导致搜索效率低下或过度搜索的行为。我们提出了MMSearch-R1,这是首个端到端的强化学习框架,使LMM能够在真实互联网环境中按需进行多轮搜索。我们的框架整合了图像和文本搜索工具,允许模型根据基于结果并带有搜索惩罚机制的奖励信号来判断何时以及如何调用这些工具。为了支持训练,我们通过一个半自动化的流程收集了一个多模态搜索VQA数据集,涵盖了多样化的视觉与文本知识需求,并整理出一个包含需搜索与无需搜索样本的平衡子集,这对于塑造高效且按需的搜索行为至关重要。在多个知识密集型和信息寻求型VQA任务上的大量实验表明,我们的模型不仅在相同模型规模下优于基于RAG的基线系统,甚至在减少超过30%搜索请求的情况下,也能达到一个更大RAG模型的性能水平。我们还对关键的实验发现进行了分析,以期为推动多模态搜索研究提供可行的见解。
  • 图表
  • 解决问题
    论文旨在解决大规模多模态模型(LMMs)在真实世界场景中部署时,面对复杂和动态信息需要依赖外部知识源的问题。现有的方法如检索增强生成(RAG)和提示工程搜索代理存在僵化的流程,导致搜索效率低下或过度使用搜索行为。
  • 关键思路
    论文提出MMSearch-R1,这是首个端到端的强化学习框架,使LMM能够根据需求在真实的互联网环境中进行多轮次搜索。该框架结合了图像和文本搜索工具,并通过基于结果的奖励机制引导模型决定何时以及如何调用这些工具。
  • 其它亮点
    {开发了一个新的多模态搜索VQA数据集,通过半自动化流程覆盖多样化的视觉和文本知识需求。,设计了一个搜索平衡子集,包含需要搜索和无需搜索的样本,用于训练高效的按需搜索行为。,实验表明,该模型不仅优于相同规模的基于RAG的基线模型,还匹配了更大RAG模型的表现,同时减少了超过30%的搜索调用。,提供了对关键实证发现的分析,为多模态搜索研究提供可操作的见解。}
  • 相关研究
    {"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks","Language Models as Agents: A Collaborative Search Framework","Prompt Engineering for Information Retrieval in Multimodal Contexts","Efficient and Scalable Transformer-based Models for Real-time Applications"}
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论