- 简介从增强现实到大规模环境中的机器人自主运行,各类计算机视觉与机器人应用都需要具备时空记忆能力的框架,以同时捕捉用于精确语言关联的几何结构和语义细节。现有方法面临权衡困境:当需要将描述与三维空间对齐时,生成丰富开放词汇描述的能力往往以牺牲实时性为代价。为应对这些挑战,我们提出了“在任何时间、任何地点描述任何事物”(Describe Anything, Anywhere, at Any Moment,简称DAAAM)——一种面向大规模、实时四维场景理解的新型时空记忆框架。DAAAM引入了一种基于优化的前端模块,能够从局部图像描述模型(如“描述任意事物模型”DAM)中推断出详细的语义描述,并通过批处理技术将在线推理速度提升一个数量级。该框架利用此类语义理解构建层次化的四维场景图(SG),形成一种全局上空间与时间均一致的有效记忆表征。DAAAM能够在保持实时性能的同时,生成包含丰富且几何定位准确描述的四维场景图。我们展示了DAAAM的四维场景图可有效对接工具调用代理,支持推理与决策任务。 我们在NaVQA基准上对DAAAM进行了针对复杂时空问答任务的全面评估,并验证了其在SG3D基准上对序列化任务接地的泛化能力。此外,我们还专门构建了一个扩展版的大规模、长时间OC-NaVQA基准,用于更严格的测试。实验结果表明,DAAAM在这两项任务中均达到最先进水平,相较于最强的基线方法,在OC-NaVQA上的问题回答准确率提升了53.6%,位置误差降低了21.9%,时间误差减少了21.6%,在SG3D任务接地准确率上提高了27.8%。我们已将相关数据与代码全部开源发布。
-
- 图表
- 解决问题论文试图解决在大规模、实时的4D场景理解中,如何同时实现高精度的几何结构建模与丰富的语义描述(如开放词汇语言接地)的问题。现有方法通常在语义丰富性与实时性能之间存在权衡,难以满足机器人自主、增强现实等应用对时空一致性记忆框架的需求。这个问题在动态、大尺度环境中尤为关键,且尚未被充分解决,因此具有新颖性和实际意义。
- 关键思路提出Describe Anything, Anywhere, at Any Moment (DAAAM),一种新型的时空记忆框架,通过优化驱动的前端加速局部化描述模型(如DAM)的推理,并利用批处理将推理速度提升一个数量级;进而构建层次化的4D场景图(SG),实现全局空间和时间一致的语义-几何联合表示。其核心创新在于将高效语义推断与结构化记忆集成,在保持实时性的同时支持细粒度的语言接地与推理。
- 其它亮点DAAAM在NaVQA和SG3D基准上实现了最先进的表现,分别将OC-NaVQA的问答准确率提高53.6%,位置误差降低21.9%,时间误差减少21.6%,任务接地准确率提升27.8%;并发布了扩展的OC-NaVQA基准用于长期大尺度评估;系统支持与工具调用代理进行推理交互,展示了实际应用潜力;代码与数据已开源,有利于社区复现与后续研究。
- 1. “SceneGraph: Building Structured 3D Scene Representations from Monocular Images” 2. “Open-Vocabulary Object Detection via Vision and Language Knowledge Distillation” 3. “4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks for Dynamic Scene Understanding” 4. “Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents” 5. “SG3D: Towards Semantically Grounded 3D Scene Graphs for Embodied Reasoning”
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流