WorDepth: Variational Language Prior for Monocular Depth Estimation

向作者提问

NEW

简介

三维重建是一个具有固有模糊性的不适定问题，即尺度问题。从文本描述中预测三维场景同样具有固有的模糊性，即描述对象的空间排列。我们研究了两种固有模糊性模态是否可以结合使用以产生度量尺度的重建。为了测试这个问题，我们专注于单目深度估计，即从单个图像预测密集的深度图，但加上一个描述场景的文本说明。为此，我们首先将文本说明编码为均值和标准差；使用变分框架，我们学习与文本说明对应的3D场景的可信度量重建的分布作为先验。为了“选择”特定的重建或深度图，我们通过条件采样器对给定图像进行编码，该采样器从变分文本编码器的潜在空间中进行采样，然后解码为输出深度图。我们的方法在文本和图像分支之间交替训练：在一个优化步骤中，我们从文本描述中预测均值和标准差，并从标准高斯分布中进行采样；在另一个优化步骤中，我们使用（图像）条件采样器进行采样。训练完成后，我们可以直接使用条件采样器从编码的文本中预测深度。我们在室内（NYUv2）和室外（KITTI）场景中演示了我们的方法，结果表明，语言在两种场景中都可以持续改善性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文研究单张图像的三维重建问题，通过结合文本描述信息，尝试解决尺度和空间排列等问题。
关键思路

通过文本描述信息作为先验，结合条件采样器和变分自编码器，实现从单张图像中预测出密集的深度图，解决单张图像的三维重建问题。
其它亮点

本论文的亮点在于使用文本描述信息作为先验，结合变分自编码器和条件采样器，实现单张图像的三维重建，并在室内和室外场景中进行了实验验证。实验结果表明，文本描述信息可以显著提高三维重建的性能。论文使用了NYUv2和KITTI数据集，并提供了开源代码。
相关研究

相关研究包括：1）使用深度学习方法进行单张图像的三维重建；2）使用文本信息作为先验进行图像生成和处理。相关论文包括《Single-Image Depth Perception in the Wild》和《Generative Adversarial Text to Image Synthesis》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问