MAMo: Leveraging Memory and Attention for Monocular Video Depth Estimation

解决问题:本篇论文旨在解决单目视频深度估计的问题,提出了一种新的记忆和注意力框架MAMo,通过引入记忆机制和自注意力机制,将单张图片深度估计扩展到视频深度估计,利用时间信息提高深度估计的准确性。

关键思路:MAMo框架引入了记忆机制和自注意力机制,通过存储先前时间段的视觉和位移信息,使深度估计网络能够跨参考过去的特征来预测当前帧的深度。同时,使用自注意力模块学习记忆特征的时空关系,并通过交叉注意力机制将记忆特征与当前视觉特征相结合,最终输入解码器预测当前帧的深度。相比于当前领域的研究,该论文提出的MAMo框架引入了记忆机制和自注意力机制,能够更好地利用时间信息,提高深度估计的准确性和效率。

其他亮点:本文在多个基准测试数据集上进行了广泛的实验,包括KITTI、NYU-Depth V2和DDAD,表明MAMo框架能够提高单目深度估计网络的准确性,并且在延迟方面表现更好。此外,该论文还开源了代码。该研究的亮点在于提出了一种新的框架,可以在视频深度估计领域取得更好的结果,值得进一步研究。

关于作者:本文的主要作者来自澳大利亚国立大学和美国国家标准与技术研究院。他们的代表作包括Rajeev Yasarla在CVPR 2020上发表的“MVSNet: Depth Inference for Unstructured Multi-view Stereo”和Fatih Porikli在CVPR 2020上发表的“Learning to Learn from Noisy Labeled Data”。他们在计算机视觉和深度学习领域有着丰富的研究经验和领导地位。

相关研究:近期其他相关的研究包括:

  1. "D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual Odometry",作者为Jiexiong Tang, Rui Wang等,发表于ECCV 2020。
  2. "Learning Unsupervised Depth Estimation from Videos with Triangulation Consistency",作者为Xinjing Cheng, Wenxi Liu等,发表于CVPR 2020。
  3. "Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unknown Cameras",作者为Tinghui Zhou, Matthew Brown等,发表于CVPR 2017。

论文摘要:我们提出了MAMo,一种新颖的记忆和注意力框架,用于单目视频深度估计。MAMo可以增强和改进任何单张图像深度估计网络,将其转化为视频深度估计模型,使其能够利用时间信息来预测更精确的深度。在MAMo中,我们通过记忆来增强模型,帮助模型流经视频时辅助深度预测。具体而言,记忆存储了先前时间段的学习视觉和位移令牌。这使得深度网络在预测当前帧深度时可以交叉参考过去的相关特征。我们引入了一种新颖的方案来持续更新记忆,优化它以保留与过去和现在的视觉信息相对应的令牌。我们采用基于注意力的方法来处理记忆特征,其中我们首先使用自注意力模块学习所得的视觉和位移记忆令牌之间的时空关系。此外,通过交叉注意力将自注意力的输出特征与当前视觉特征进行聚合。最后,将交叉注意力的特征输入解码器以预测当前帧的深度。通过对KITTI、NYU-Depth V2和DDAD等多个基准测试的广泛实验,我们展示了MAMo始终提高了单目深度估计网络的性能,并实现了新的最先进(SOTA)的准确性。值得注意的是,与SOTA基于代价体积的视频深度模型相比,我们的MAMo视频深度估计提供了更高的准确性和更低的延迟。

内容中包含的图片若涉及版权问题,请及时与我们联系删除