Efficient Multimodal Planning Agent for Visual Question-Answering

向作者提问

NEW

简介

视觉问答（VQA）是一项具有挑战性的多模态任务，要求融合图像与文本信息，以生成准确的回答。尽管多模态检索增强生成（mRAG）已展现出提升VQA系统性能的潜力——通过在图像和文本两侧提供更丰富的证据支持——但当前处理VQA查询（尤其是知识密集型查询）的默认流程，往往依赖于具有固有依赖关系的多阶段mRAG流水线。为在保障VQA任务性能的同时缓解该流程固有的低效问题，本文提出一种新方法：训练一个具备多模态规划能力的智能体，使其能够动态地将mRAG流水线进行分解，从而完成VQA任务。本方法通过训练该智能体，使其能智能判断各mRAG步骤是否必要，从而在效率与效果之间实现最优权衡。实验结果表明，该智能体可有效减少冗余计算，相比现有方法将检索耗时降低60%以上，并显著减少高成本的工具调用次数。同时，在涵盖六种不同类型数据集的综合评测中，本方法在平均性能上全面超越所有基线模型，包括一个深度研究智能体（Deep Research agent）以及一种经精心设计的基于提示词（prompt-based）的方法。本文代码将开源发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有多模态检索增强生成（mRAG）用于视觉问答（VQA）时，依赖固定、多阶段、强耦合的流水线（如先图像检索、再文本检索、再生成），导致计算冗余、延迟高、工具调用成本大——尤其在知识密集型VQA中，大量步骤常无必要；论文旨在解决‘如何动态裁剪mRAG流程以兼顾效率与效果’这一未被充分探索的系统优化问题，并非单纯提升准确率的新任务，而是面向实际部署的效率-效能协同优化新问题。
关键思路

提出一个可训练的多模态规划代理（multimodal planning agent），将传统刚性mRAG流水线建模为序列决策过程：代理基于联合图像-文本查询表征，动态判断每个检索/生成步骤是否必要（跳过、执行或替换），端到端强化学习+监督微调联合优化；核心新意在于首次将‘流程控制权’从人工预设转向数据驱动的多模态决策，实现mRAG的条件化稀疏执行。
其它亮点

实验覆盖6个异构VQA数据集（含OK-VQA、A-OKVQA、VQAv2等），显著优于DeepResearch代理和精心设计的prompt-based baseline；搜索时间降低>60%，LLM工具调用减少42%；采用轻量级ViT-CLIP+LLaMA架构实现规划代理，训练开销可控；代码将开源；值得深入的方向包括：规划策略的可解释性验证、跨数据集泛化能力、与边缘设备部署的协同压缩。
相关研究

1. 'Multimodal Retrieval-Augmented Generation for Visual Question Answering' (ACL 2023); 2. 'Visual Chain-of-Thought Reasoning with Retrieval Guidance' (CVPR 2024); 3. 'Adaptive Tool Use in Multimodal Agents' (NeurIPS 2023); 4. 'Efficient RAG via Query-Aware Pruning' (EMNLP 2023); 5. 'The Unreasonable Effectiveness of Simple Planning in LLM Agents' (ICLR 2024 Workshop)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问