Self-supervised Pretraining and Finetuning for Monocular Depth and Visual Odometry

2024年06月16日
  • 简介
    对于同时进行单目深度和视觉里程计估计的任务,我们提出了一种分两步学习自监督变压器模型的方法。第一步是通用预训练,使用交叉视图完成目标(CroCo)来学习3D几何,然后进行自监督微调,使用非注释视频。我们展示了我们的自监督模型可以使用标准组件(如视觉变压器、密集预测变压器和适配器)达到最先进的性能,没有任何花哨的技巧。我们通过在六个基准数据集上进行评估来证明我们提出的方法的有效性,包括静态和动态、室内和室外、合成和真实图像。对于所有数据集,我们的方法都优于最先进的方法,特别是深度预测任务。
  • 作者讲解
  • 图表
  • 解决问题
    本文的问题是同时进行单目深度和视觉里程计估计,通过学习自监督变压器模型来解决这个问题。
  • 关键思路
    本文的关键思路是两步学习:首先使用跨视图完成目标进行通用预训练,学习3D几何,然后使用自监督微调来进行非注释视频的学习。本文提出的自监督模型使用了标准组件,包括视觉变压器、密集预测变压器和适配器,达到了最先进的性能。
  • 其它亮点
    本文的亮点是在六个基准数据集上进行评估,包括静态和动态、室内和室外、合成和真实图像。在所有数据集上,本文的方法均优于最先进的方法,特别是在深度预测任务方面。本文还提供了开源代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Unsupervised Monocular Depth and Ego-Motion Learning with Structure and Semantics》和《Unsupervised Learning of Monocular Depth and Ego-Motion with Bundle Adjustment and Consistency》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问