- 简介视觉问答(VQA)是一项具有挑战性的多模态任务,要求融合图像与文本信息,以生成准确的回答。尽管多模态检索增强生成(mRAG)已展现出提升VQA系统性能的潜力——通过在图像和文本两侧提供更丰富的证据支持——但当前处理VQA查询(尤其是知识密集型查询)的默认流程,往往依赖于具有固有依赖关系的多阶段mRAG流水线。为在保障VQA任务性能的同时缓解该流程固有的低效问题,本文提出一种新方法:训练一个具备多模态规划能力的智能体,使其能够动态地将mRAG流水线进行分解,从而完成VQA任务。本方法通过训练该智能体,使其能智能判断各mRAG步骤是否必要,从而在效率与效果之间实现最优权衡。实验结果表明,该智能体可有效减少冗余计算,相比现有方法将检索耗时降低60%以上,并显著减少高成本的工具调用次数。同时,在涵盖六种不同类型数据集的综合评测中,本方法在平均性能上全面超越所有基线模型,包括一个深度研究智能体(Deep Research agent)以及一种经精心设计的基于提示词(prompt-based)的方法。本文代码将开源发布。
-
- 图表
- 解决问题现有多模态检索增强生成(mRAG)用于视觉问答(VQA)时,依赖固定、多阶段、强耦合的流水线(如先图像检索、再文本检索、再生成),导致计算冗余、延迟高、工具调用成本大——尤其在知识密集型VQA中,大量步骤常无必要;论文旨在解决‘如何动态裁剪mRAG流程以兼顾效率与效果’这一未被充分探索的系统优化问题,并非单纯提升准确率的新任务,而是面向实际部署的效率-效能协同优化新问题。
- 关键思路提出一个可训练的多模态规划代理(multimodal planning agent),将传统刚性mRAG流水线建模为序列决策过程:代理基于联合图像-文本查询表征,动态判断每个检索/生成步骤是否必要(跳过、执行或替换),端到端强化学习+监督微调联合优化;核心新意在于首次将‘流程控制权’从人工预设转向数据驱动的多模态决策,实现mRAG的条件化稀疏执行。
- 其它亮点实验覆盖6个异构VQA数据集(含OK-VQA、A-OKVQA、VQAv2等),显著优于DeepResearch代理和精心设计的prompt-based baseline;搜索时间降低>60%,LLM工具调用减少42%;采用轻量级ViT-CLIP+LLaMA架构实现规划代理,训练开销可控;代码将开源;值得深入的方向包括:规划策略的可解释性验证、跨数据集泛化能力、与边缘设备部署的协同压缩。
- 1. 'Multimodal Retrieval-Augmented Generation for Visual Question Answering' (ACL 2023); 2. 'Visual Chain-of-Thought Reasoning with Retrieval Guidance' (CVPR 2024); 3. 'Adaptive Tool Use in Multimodal Agents' (NeurIPS 2023); 4. 'Efficient RAG via Query-Aware Pruning' (EMNLP 2023); 5. 'The Unreasonable Effectiveness of Simple Planning in LLM Agents' (ICLR 2024 Workshop)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流