链接:https://arxiv.org/abs/2205.10468

https://github.com/VLISLAB/360-DL-Survey

本综述来自于香港科技大学(广州)王林团队,对现有的深度学习在全景视觉上的应用进行了全面的回顾,并提供了一些新的观点以及对全景视觉未来的应用展望。本文首先对全景图像的成像进行了分析,紧接着对现有的在全景图像上的卷积方式进行了分类介绍,并对现有的全景图像数据集进行了收集并介绍。作为第一篇全面回顾和分析深度学习方法在全景图像应用上的综述,我们汇总并分析对比了在众多视觉任务上现有深度学习方法的相同与差异。最后,我们提供了一些全景图像的新的应用方向的研究思路,以供研究者参考讨论。

1、Abstract

全向图像(ODI)数据是用360x180的视场捕获的,该视场比针孔相机宽得多,并且包含比传统平面图像更丰富的空间信息。因此,全景视觉因其在自动驾驶和虚拟现实等众多应用中更具优势的性能而引起了人们的广泛关注。近年来,客户级360相机的出现使得全景视觉更加流行,深度学习(DL)的进步显著激发了其研究和应用。本文对深度学习方法在全景视觉方面的最新进展进行了系统、全面的综述和分析。作者的工作包括四个主要内容:(一)介绍全向成像原理,ODI上的卷积方法,以及数据集,以突出与2D平面图像数据相比的差异和困难;(二) 用于全景视觉的远程学习方法的结构和层次分类;(三) 总结最新的新学习战略和应用;(四) 通过强调潜在的研究方向,对挑战和悬而未决的问题进行有见地的讨论,以促进社区中的更多研究。

2、Introduction

随着3D技术的飞速发展和对逼真视觉体验的追求,对计算机视觉的研究兴趣逐渐从传统的2D平面图像数据转向全向图像(ODI)数据,也称为360图像、全景图像或球形图像数据。由360摄像机捕获的ODI数据产生360x180视场(FoV),这比针孔相机宽得多;因此,它可以通过反射比传统平面图像更丰富的空间信息来捕获整个周围环境。由于沉浸式体验和完整视图,ODI数据已广泛应用于众多应用,例如增强现实(AR)/虚拟现实(VR),自动驾驶和机器人导航。通常,原始ODI数据表示为等距柱状投影(ERP)或立方体图投影(CP)以与成像管道一致。作为一个新颖的数据领域,ODI数据既具有领域独特的优势(球面成像的宽FoV,丰富的几何信息,多种投影类型)也具有挑战性(ERP类型中的严重失真,CP格式的内容不连续性)。这使得对全景视觉的研究变得有价值,但具有挑战性。

最近,客户级360相机的出现使全景视觉更加普及,深度学习(DL)的进步极大地促进了其研究和应用。特别是作为一项数据驱动的技术,公共数据集的持续发布,包括:SUN360、Salient 360、Stanford2D3D、Pano-AVQA和PanoContext数据集等等,已经迅速使深度学习方法取得了显著的突破,并经常在各种全景视觉任务上实现最先进的(SoTA)性能。此外,还开发了各种基于不同架构的深度神经网络(DNN)模型,从卷积神经网络(CNN),递归神经网络(RNN),生成对抗网络(GAN),图神经网络(GNN),到vision Trasnformer(ViTs)。一般来说,SoTA-DL方法侧重于四个主要方面:(I)用于从ODI数据中提取特征的卷积滤波器(全向视频(ODV)可以被认为是ODI的一个时间集),(II)通过考虑输入数字和投影类型进行网络设计,(III)新颖的学习策略,以及(IV)实际应用。本文对深度学习方法在全景视觉方面的最新进展进行了系统、全面的综述和分析。与已有的关于全景视觉的综述不同,我们强调了深度学习的重要性,并按照逻辑地和全面地探索了全景视觉的最新进展。本研究中提出的结构和层次分类法如图所示。

综上所述,本研究的主要贡献可归纳为:(1)据我们所知,这是第一份调查,全面回顾和分析了全景视觉的DL方法,包括全向成像原理,表征学习,数据集,分类学和应用,以突出与2D规划师图像数据的差异和困难。(2)我们总结了过去五年中发表的大多数(可能不是全部)顶级会议/期刊作品(超过200篇论文),并对DL的最新趋势进行了分析研究,以实现分层和结构上的全景视觉。此外,我们还提供对每个类别的讨论和挑战的见解。(3)我们总结了最新的新型学习策略和全方位视觉的潜在应用。(4)由于深度学习用于全景视觉是一个活跃而复杂的研究领域,我们对挑战和尚未解决的问题进行了深入的讨论,并提出了潜在的未来方向,以刺激社区进行更深入的研究。同时,我们在多个表格中总结了一些流行的全景视觉任务的代表性方法及其关键策略。为了提供更好的任务内比较,我们在基准数据集上提出了一些代表性方法的定量和定性结果,所有统计数据均来自原始论文。由于空间不足,我们在补充材料的Sec.2中展示了实验结果。(5)我们创建了一个开源存储库,该存储库提供了所有上述作品和代码链接的分类。我们将继续用这一领域的新作品更新我们的开源存储库,并希望它能为未来的研究提供启示。存储库链接为 https://github.com/VLISLAB/360-DL-Survey。