Describe Anything Anywhere At Any Moment

向作者提问

NEW

简介

从增强现实到大规模环境中的机器人自主运行，各类计算机视觉与机器人应用都需要具备时空记忆能力的框架，以同时捕捉用于精确语言关联的几何结构和语义细节。现有方法面临权衡困境：当需要将描述与三维空间对齐时，生成丰富开放词汇描述的能力往往以牺牲实时性为代价。为应对这些挑战，我们提出了“在任何时间、任何地点描述任何事物”（Describe Anything, Anywhere, at Any Moment，简称DAAAM）——一种面向大规模、实时四维场景理解的新型时空记忆框架。DAAAM引入了一种基于优化的前端模块，能够从局部图像描述模型（如“描述任意事物模型”DAM）中推断出详细的语义描述，并通过批处理技术将在线推理速度提升一个数量级。该框架利用此类语义理解构建层次化的四维场景图（SG），形成一种全局上空间与时间均一致的有效记忆表征。DAAAM能够在保持实时性能的同时，生成包含丰富且几何定位准确描述的四维场景图。我们展示了DAAAM的四维场景图可有效对接工具调用代理，支持推理与决策任务。我们在NaVQA基准上对DAAAM进行了针对复杂时空问答任务的全面评估，并验证了其在SG3D基准上对序列化任务接地的泛化能力。此外，我们还专门构建了一个扩展版的大规模、长时间OC-NaVQA基准，用于更严格的测试。实验结果表明，DAAAM在这两项任务中均达到最先进水平，相较于最强的基线方法，在OC-NaVQA上的问题回答准确率提升了53.6%，位置误差降低了21.9%，时间误差减少了21.6%，在SG3D任务接地准确率上提高了27.8%。我们已将相关数据与代码全部开源发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决在大规模、实时的4D场景理解中，如何同时实现高精度的几何结构建模与丰富的语义描述（如开放词汇语言接地）的问题。现有方法通常在语义丰富性与实时性能之间存在权衡，难以满足机器人自主、增强现实等应用对时空一致性记忆框架的需求。这个问题在动态、大尺度环境中尤为关键，且尚未被充分解决，因此具有新颖性和实际意义。
关键思路

提出Describe Anything, Anywhere, at Any Moment (DAAAM)，一种新型的时空记忆框架，通过优化驱动的前端加速局部化描述模型（如DAM）的推理，并利用批处理将推理速度提升一个数量级；进而构建层次化的4D场景图（SG），实现全局空间和时间一致的语义-几何联合表示。其核心创新在于将高效语义推断与结构化记忆集成，在保持实时性的同时支持细粒度的语言接地与推理。
其它亮点

DAAAM在NaVQA和SG3D基准上实现了最先进的表现，分别将OC-NaVQA的问答准确率提高53.6%，位置误差降低21.9%，时间误差减少21.6%，任务接地准确率提升27.8%；并发布了扩展的OC-NaVQA基准用于长期大尺度评估；系统支持与工具调用代理进行推理交互，展示了实际应用潜力；代码与数据已开源，有利于社区复现与后续研究。
相关研究

1. “SceneGraph: Building Structured 3D Scene Representations from Monocular Images” 2. “Open-Vocabulary Object Detection via Vision and Language Knowledge Distillation” 3. “4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks for Dynamic Scene Understanding” 4. “Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents” 5. “SG3D: Towards Semantically Grounded 3D Scene Graphs for Embodied Reasoning”

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问