- 简介自监督学习是解锁通用计算机视觉系统的关键。通过消除对基本真实注释的依赖,它允许扩展到更大的数据量。不幸的是,自监督单目深度估计(SS-MDE)受到多样化训练数据的缺乏的限制。现有数据集仅关注于人口密集城市中的城市驾驶,导致模型无法推广到该领域之外。 为了解决这些限制,本文提出了两个新的数据集:SlowTV和CribsTV。这些是从公开可用的YouTube视频中策划的大规模数据集,包含总共2M个训练帧。它们提供了一个非常多样化的环境集合,从雪林到海岸公路、豪华别墅,甚至是水下珊瑚礁。我们利用这些数据集来解决具有挑战性的零样本泛化任务,胜过了所有现有的SS-MDE方法,甚至一些最先进的监督方法。 我们的模型的泛化能力进一步增强了一系列组件和贡献:1)学习相机内参,2)更强的增强方案针对纵横比变化,3)支持帧随机化,4)灵活的运动估计,5)现代基于transformer的架构。我们在广泛的消融实验中展示了每个组件的有效性。为了促进未来研究的发展,我们将数据集、代码和预训练模型提供给公众,网址为https://github.com/jspenmar/slowtv_monodepth。
-
- 图表
- 解决问题解决问题:论文试图解决什么问题,或者验证什么假设?这是否是一个新问题?
- 关键思路关键思路:论文中解决问题的方案关键思路是什么?相比当前这个领域的研究状况,这篇论文的思路有什么新意?
- 其它亮点其他亮点:论文提出了两个新的数据集SlowTV和CribsTV,用于解决自监督单目深度估计(SS-MDE)的数据不足问题。同时,还提出了一些新的组件和贡献,包括学习相机内参、强化数据增强、支持帧随机化、灵活的运动估计和基于transformer的架构。实验结果表明,该方法在零样本泛化方面表现优异,超过了现有的SS-MDE方法和一些最先进的有监督方法。
- 相关研究:最近在这个领域中,还有哪些相关的研究被进行?能否列举一些相关研究的论文标题?
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流