Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV & CribsTV

简介

自监督学习是解锁通用计算机视觉系统的关键。通过消除对基本真实注释的依赖，它允许扩展到更大的数据量。不幸的是，自监督单目深度估计（SS-MDE）受到多样化训练数据的缺乏的限制。现有数据集仅关注于人口密集城市中的城市驾驶，导致模型无法推广到该领域之外。为了解决这些限制，本文提出了两个新的数据集：SlowTV和CribsTV。这些是从公开可用的YouTube视频中策划的大规模数据集，包含总共2M个训练帧。它们提供了一个非常多样化的环境集合，从雪林到海岸公路、豪华别墅，甚至是水下珊瑚礁。我们利用这些数据集来解决具有挑战性的零样本泛化任务，胜过了所有现有的SS-MDE方法，甚至一些最先进的监督方法。我们的模型的泛化能力进一步增强了一系列组件和贡献：1）学习相机内参，2）更强的增强方案针对纵横比变化，3）支持帧随机化，4）灵活的运动估计，5）现代基于transformer的架构。我们在广泛的消融实验中展示了每个组件的有效性。为了促进未来研究的发展，我们将数据集、代码和预训练模型提供给公众，网址为https://github.com/jspenmar/slowtv_monodepth。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文试图解决什么问题，或者验证什么假设？这是否是一个新问题？
关键思路

关键思路：论文中解决问题的方案关键思路是什么？相比当前这个领域的研究状况，这篇论文的思路有什么新意？
其它亮点

其他亮点：论文提出了两个新的数据集SlowTV和CribsTV，用于解决自监督单目深度估计（SS-MDE）的数据不足问题。同时，还提出了一些新的组件和贡献，包括学习相机内参、强化数据增强、支持帧随机化、灵活的运动估计和基于transformer的架构。实验结果表明，该方法在零样本泛化方面表现优异，超过了现有的SS-MDE方法和一些最先进的有监督方法。
相关研究

相关研究：最近在这个领域中，还有哪些相关的研究被进行？能否列举一些相关研究的论文标题？

Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV & CribsTV

提问交流

提问交流