Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search

2026年05月09日
  • 简介
    当前的全模态基准测试主要评估模型在多种模态信息被同时提供的设定下的性能,而模型仅凭音频输入便能主动跨模态检索证据的能力却尚未得到充分探索。本文提出了**Omni-DeepSearch**——一个面向音频驱动的全模态深度搜索任务的基准评测集。给定一段或多段音频及与其相关的问题,模型需从音频中推断出关键线索,自主调用文本、图像与视频三种检索工具,并通过多跳推理,最终生成简短、客观且可验证的答案。Omni-DeepSearch共包含640个样本,覆盖15个细粒度类别,涵盖四类检索目标模态(文本、图像、视频及复合模态)与四种音频内容类型(如语音对话、环境音、音乐、混合音频等)。我们设计了一套多阶段过滤流程,以严格保障每个样本满足四大核心要求:音频依赖性(即答案无法脱离音频信息独立得出)、检索必要性(即必须借助外部检索工具才能作答)、视觉模态必要性(即必须调用图像或视频检索才能获取关键信息),以及答案唯一性(即仅存在一个明确、无歧义的正确答案)。在近期主流的闭源与开源全模态模型上的实验表明,该任务仍极具挑战性:目前表现最强的模型Gemini-3-Pro平均准确率仅为43.44%。进一步分析揭示了若干关键瓶颈,包括音频中实体信息的准确推断、检索查询语句的有效生成、工具调用的可靠性、多跳跨模态检索的连贯性,以及跨模态证据间的交叉验证能力。上述结果凸显,“音频驱动的全模态深度搜索”是未来多模态智能体发展中一个至关重要且亟待深入探索的研究方向。
  • 作者讲解
  • 图表
  • 解决问题
    现有通用多模态基准(如MMBench、M3Exam)主要评估模型在所有模态输入‘同时给定’条件下的融合能力,而忽略了真实场景中智能体需从单一模态(尤其是音频)主动发起、逐步检索并验证跨模态证据的‘深度搜索’能力。该论文首次系统性定义并建模‘音频驱动的全模态深度搜索’这一新任务:模型必须仅凭音频线索启动推理,自主决定何时/如何调用文本、图像、视频搜索工具,并完成多跳、可验证的跨模态推理——这是一个此前未被基准化、也未被主流多模态大模型显式支持的新问题。
  • 关键思路
    提出Omni-DeepSearch基准,其核心创新在于‘强因果音频依赖’与‘必要性驱动的多模态检索’双约束设计:通过四阶段过滤管道(音频线索不可省略、至少一次外部检索不可绕过、至少一种视觉模态(图/视)检索结果不可被纯文本替代、答案唯一且可验证)确保任务真正考验‘从听觉出发的主动认知链’,而非静态多模态理解。这超越了当前主流‘多模态输入→单步输出’范式,将多模态智能重新锚定在‘感知-提问-检索-验证’的具身代理循环上。
  • 其它亮点
    基准含640个高质量样本,覆盖15类细粒度语义(如‘方言识别+历史事件定位’‘环境音→地点→地标图像验证’),涵盖4种音频类型(语音、环境音、音乐、混合)和4种检索目标模态;采用人工+自动多轮校验保证难度与纯净性;实验评估12个SOTA闭源(Gemini-3-Pro, Claude-3.5-Sonnet)与开源(Qwen2-VL, InternVL2, LLaVA-Omni)模型,最高准确率仅43.44%,暴露显著瓶颈;论文已开源全部数据、评测协议与分析脚本(https://github.com/omni-deepsearch/omni-deepsearch);未来关键方向包括:音频语义结构化表征、检索查询的反事实鲁棒生成、工具调用置信度建模、以及跨模态证据一致性验证机制。
  • 相关研究
    Recent works include: 'M3Exam: A Multimodal Multi-hop Reasoning Benchmark for Large Language Models' (ACL 2024); 'Audio-Visual Question Answering with Causal Intervention' (CVPR 2023); 'ToolFormer: Language Models Can Teach Themselves to Use Tools' (NeurIPS 2023); 'Multimodal Chain-of-Thought Reasoning in Language Models' (ICML 2024); 'VLM-Prompt: Prompting Vision-Language Models for Open-World Tool Use' (EMNLP 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问