VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph

2026年02月13日
  • 简介
    如何高效地检索、推理并理解多模态信息,仍是智能体系统面临的一项关键挑战。传统的检索增强生成(RAG)方法依赖于线性的交互历史记录,难以应对长上下文任务,尤其在涉及迭代式推理的场景中——此时视觉数据往往信息稀疏却 token 数量庞大。为弥补这一差距,我们提出了 VimRAG 框架,专为面向文本、图像与视频的多模态检索增强推理任务而设计。受我们系统性研究的启发,我们将推理过程建模为一个动态的有向无环图(DAG),用以结构化地组织智能体的状态及所检索到的多模态证据。在此结构化记忆基础之上,我们进一步提出“图调制的视觉记忆编码”(Graph-Modulated Visual Memory Encoding)机制:该机制依据记忆节点在图中的拓扑位置评估其重要性,从而令模型能够动态地为关键证据分配高分辨率 token,同时压缩或舍弃无关紧要的线索。为实现这一范式,我们设计了“图引导的策略优化”(Graph-Guided Policy Optimization)方法:该方法通过剪除与冗余动作相关联的记忆节点,将单步动作的有效性评估与整条推理轨迹的全局奖励解耦,进而支持更精细的信用分配(credit assignment)。大量实验表明,VimRAG 在各类多模态 RAG 基准测试中均持续取得当前最优(state-of-the-art)性能。代码已开源,地址为:https://github.com/Alibaba-NLP/VRAG。
  • 作者讲解
  • 图表
  • 解决问题
    传统检索增强生成(RAG)方法在处理多模态(文本、图像、视频)任务时面临根本性挑战:线性交互历史难以建模长程、稀疏、高token开销的视觉证据;迭代推理中缺乏对证据重要性的动态结构化记忆与细粒度信用分配机制。该问题在具身智能与多步多模态推理场景中尤为突出,属新兴且亟待系统解决的关键问题。
  • 关键思路
    提出VimRAG框架,核心创新在于将推理过程建模为动态有向无环图(DAG),以结构化方式表征代理状态与多模态证据间的依赖关系;进而设计图调制的视觉记忆编码(Graph-Modulated Visual Memory Encoding),依据节点拓扑位置(如中心性、路径权重)动态分配高分辨率token资源;并引入图引导策略优化(Graph-Guided Policy Optimization),通过图结构驱动的冗余节点剪枝实现轨迹级奖励到步骤级动作的解耦式信用分配。
  • 其它亮点
    实验覆盖多个权威多模态RAG基准(如VideoMME、MMBench-V, TextVQA+Video),显著超越SOTA;首次将图结构显式嵌入多模态RAG的记忆与策略学习闭环;开源完整代码(https://github.com/Alibaba-NLP/VRAG);关键亮点包括:1)DAG记忆支持可解释的推理路径追溯;2)拓扑感知token分配大幅降低视觉计算开销;3)图剪枝机制提升策略训练样本效率;未来值得深入方向:DAG的在线增量构建、跨模态图对齐、以及在真实机器人交互中的部署验证。
  • 相关研究
    1) Flamingo (DeepMind, 2022) —— 早期多模态自回归架构;2) KOSMOS-2 (Microsoft, 2023) —— 统一序列建模图文;3) Video-LLaMA (2023) —— 视频语言联合建模;4) RAGatouille (2023) & LlamaIndex Multimodal —— 文本-centric RAG扩展尝试;5) GraphRAG (Microsoft, 2024) —— 纯文本图增强RAG,未处理视觉稠密信号。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问