- 简介深度估计是自主系统需要评估自身状态和感知周围环境的基本知识。近年来,深度学习算法在深度估计方面引起了极大的兴趣,因为这种方法可以克服主动深度感测系统的局限性。此外,由于单目摄像头成本低廉且体积小,研究人员将注意力集中在单目深度估计(MDE)上,该方法可以从单个RGB视频帧中估计出密集的深度图。目前最先进的MDE模型通常依赖于高度深度和复杂的视觉变换器(ViT)架构,使它们不适用于具有硬件限制的设备上的快速推断。因此,在本文中,我们解决了在嵌入式设备上利用ViT进行MDE的问题。这些系统通常具有有限的内存能力和低功耗CPU / GPU。我们提出了METER,一种新型轻量级视觉变换器架构,能够在考虑的嵌入式硬件上实现最先进的估计和低延迟推断性能:NVIDIA Jetson TX1和NVIDIA Jetson Nano。我们提供了三种METER的替代配置解决方案,一种新的损失函数来平衡像素估计和图像细节的重建,以及一种新的数据增强策略来改善整体最终预测。所提出的方法在两个基准数据集:室内NYU深度v2和室外KITTI上优于先前的轻量级工作。
- 图表
- 解决问题本篇论文旨在解决嵌入式设备上使用ViT进行单目深度估计的问题,如何在硬件限制下实现高性能的深度估计。
- 关键思路本文提出了一种轻量级的ViT架构METER,并结合新的损失函数和数据增强策略,在NVIDIA Jetson TX1和NVIDIA Jetson Nano等嵌入式设备上实现了高性能的单目深度估计。
- 其它亮点本文提出的METER在嵌入式设备上实现了高性能的单目深度估计,相比之前的轻量级模型表现更好。实验使用了NYU Depth v2和KITTI数据集,并开源了代码。
- 近期相关研究包括:《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》、《MobileNetV2: Inverted Residuals and Linear Bottlenecks》等。
沙发等你来抢
去评论
评论
沙发等你来抢