Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV & CribsTV

2024年03月03日
  • 简介
    自监督学习是解锁通用计算机视觉系统的关键。通过消除对基本真实注释的依赖,它允许扩展到更大的数据量。不幸的是,自监督单目深度估计(SS-MDE)受到多样化训练数据的缺乏的限制。现有数据集仅关注于人口密集城市中的城市驾驶,导致模型无法推广到该领域之外。 为了解决这些限制,本文提出了两个新的数据集:SlowTV和CribsTV。这些是从公开可用的YouTube视频中策划的大规模数据集,包含总共2M个训练帧。它们提供了一个非常多样化的环境集合,从雪林到海岸公路、豪华别墅,甚至是水下珊瑚礁。我们利用这些数据集来解决具有挑战性的零样本泛化任务,胜过了所有现有的SS-MDE方法,甚至一些最先进的监督方法。 我们的模型的泛化能力进一步增强了一系列组件和贡献:1)学习相机内参,2)更强的增强方案针对纵横比变化,3)支持帧随机化,4)灵活的运动估计,5)现代基于transformer的架构。我们在广泛的消融实验中展示了每个组件的有效性。为了促进未来研究的发展,我们将数据集、代码和预训练模型提供给公众,网址为https://github.com/jspenmar/slowtv_monodepth。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:论文试图解决什么问题,或者验证什么假设?这是否是一个新问题?
  • 关键思路
    关键思路:论文中解决问题的方案关键思路是什么?相比当前这个领域的研究状况,这篇论文的思路有什么新意?
  • 其它亮点
    其他亮点:论文提出了两个新的数据集SlowTV和CribsTV,用于解决自监督单目深度估计(SS-MDE)的数据不足问题。同时,还提出了一些新的组件和贡献,包括学习相机内参、强化数据增强、支持帧随机化、灵活的运动估计和基于transformer的架构。实验结果表明,该方法在零样本泛化方面表现优异,超过了现有的SS-MDE方法和一些最先进的有监督方法。
  • 相关研究
    相关研究:最近在这个领域中,还有哪些相关的研究被进行?能否列举一些相关研究的论文标题?
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问