Stealing Stable Diffusion Prior for Robust Monocular Depth Estimation

2024年03月08日
  • 简介
    单目深度估计是计算机视觉中至关重要的任务。虽然现有的方法在标准条件下表现出色,但由于缺乏多样化的训练数据,它们往往面临在低光或多雨等场景中可靠地执行的挑战。本文介绍了一种名为 Stealing Stable Diffusion(SSD)的新方法,用于实现鲁棒的单目深度估计。该方法通过利用稳定扩散生成模拟具有挑战性条件的合成图像来解决这个限制。此外,引入了自我训练机制,以增强模型在这些具有挑战性的环境中的深度估计能力。为了进一步增强稳定扩散先验的利用,将 DINOv2 编码器集成到深度模型架构中,使模型能够利用丰富的语义先验并改善其场景理解能力。此外,引入了教师损失来指导学生模型独立地获得有意义的知识,从而降低它们对教师模型的依赖性。该方法在 nuScenes 和 Oxford RobotCar 两个具有挑战性的公共数据集上进行了评估,结果显示了该方法的有效性。源代码和权重可在以下网址找到:https://github.com/hitcslj/SSD。
  • 作者讲解
  • 图表
  • 解决问题
    提高单目深度估计在低光和雨天等复杂环境下的鲁棒性。
  • 关键思路
    使用稳定扩散(Stable Diffusion)来生成模拟复杂环境的合成图像,进而进行自我训练,提高单目深度估计的鲁棒性。同时,将DINOv2编码器集成到深度模型架构中,以增强模型的场景理解能力。引入教师损失来指导学生模型独立获取有意义的知识。
  • 其它亮点
    论文使用了稳定扩散来生成模拟复杂环境的合成图像,进而进行自我训练,提高单目深度估计的鲁棒性。同时,将DINOv2编码器集成到深度模型架构中,以增强模型的场景理解能力。引入教师损失来指导学生模型独立获取有意义的知识。实验结果表明,该方法在nuScenes和Oxford RobotCar两个数据集上都取得了良好的效果。论文提供了开源代码和权重。
  • 相关研究
    在单目深度估计领域,已经有很多相关的研究。例如,基于神经网络的方法包括Monodepth、DORN、PackNet等。此外,还有一些研究关注于增强训练数据,例如使用GAN生成合成图像。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问