Mono-ViFI: A Unified Learning Framework for Self-supervised Single- and Multi-frame Monocular Depth Estimation

简介

自监督单目深度估计因为可以摆脱对深度注释的依赖而引起了显著的关注。在单目视频训练中，最近的方法只在现有的相机视图之间进行视图合成，导致指导不足。为了解决这个问题，我们尝试通过基于流的视频帧插值（VFI）来合成更多虚拟相机视图，称为时间增强。对于多帧推断，为了避开ManyDepth等显式基于几何的方法遇到的动态物体问题，我们回到了特征融合范式，并设计了一个VFI辅助的多帧融合模块来对齐和聚合多帧特征，使用流基于VFI模型获得的运动和遮挡信息。最后，我们构建了一个统一的自监督学习框架，名为Mono-ViFI，以双向连接单帧和多帧深度。在这个框架中，通过图像仿射变换实现空间数据增强，同时还采用三元深度一致性损失进行正则化。单帧和多帧模型可以共享权重，使我们的框架紧凑且内存高效。广泛的实验表明，我们的方法可以显著改进当前先进的体系结构。源代码可在https://github.com/LiuJF1226/Mono-ViFI上获得。
图表
解决问题

本论文旨在解决单目深度估计中缺乏深度注释的训练依赖性问题，并通过流基视频帧插值来进行时间增强，以生成更多的虚拟摄像机视图，以提供更多的指导。
关键思路

为了解决多帧推断中遇到的动态物体问题，本文采用特征融合范式并设计了一个VFI辅助的多帧融合模块来对齐和聚合多帧特征，使用流基VFI模型获得运动和遮挡信息。
其它亮点

本文提出的统一的自监督学习框架Mono-ViFI将单帧深度和多帧深度双向连接起来，并引入了空间数据增强和三元深度一致性损失以实现数据多样性和正则化。实验表明，该方法可以显著提高当前先进架构的性能。代码已开源。
相关研究

最近的相关研究包括自监督单目深度估计、多帧深度估计和流基视频帧插值。其中，ManyDepth是一种基于显式几何的多帧深度估计方法。

Mono-ViFI: A Unified Learning Framework for Self-supervised Single- and Multi-frame Monocular Depth Estimation

评论