- 简介对于同时进行单目深度和视觉里程计估计的任务,我们提出了一种分两步学习自监督变压器模型的方法。第一步是通用预训练,使用交叉视图完成目标(CroCo)来学习3D几何,然后进行自监督微调,使用非注释视频。我们展示了我们的自监督模型可以使用标准组件(如视觉变压器、密集预测变压器和适配器)达到最先进的性能,没有任何花哨的技巧。我们通过在六个基准数据集上进行评估来证明我们提出的方法的有效性,包括静态和动态、室内和室外、合成和真实图像。对于所有数据集,我们的方法都优于最先进的方法,特别是深度预测任务。
-
- 图表
- 解决问题本文的问题是同时进行单目深度和视觉里程计估计,通过学习自监督变压器模型来解决这个问题。
- 关键思路本文的关键思路是两步学习:首先使用跨视图完成目标进行通用预训练,学习3D几何,然后使用自监督微调来进行非注释视频的学习。本文提出的自监督模型使用了标准组件,包括视觉变压器、密集预测变压器和适配器,达到了最先进的性能。
- 其它亮点本文的亮点是在六个基准数据集上进行评估,包括静态和动态、室内和室外、合成和真实图像。在所有数据集上,本文的方法均优于最先进的方法,特别是在深度预测任务方面。本文还提供了开源代码。
- 最近在这个领域中,还有一些相关的研究,如《Unsupervised Monocular Depth and Ego-Motion Learning with Structure and Semantics》和《Unsupervised Learning of Monocular Depth and Ego-Motion with Bundle Adjustment and Consistency》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流