最近,来自北京大学的研究团队提出凸面镜反射场景无监督域适应语义分割算法,该工作也是目前学术界内第一篇有关凸面镜场景理解的工作,发表在 IEEE Transactions on Intelligent Transportation Systems(T-ITS)上,作者单位为北京大学智能学院。

论文标题:Unsupervised Domain Adaptation for Semantic Segmentation of Urban Street Scenes Reflected by Convex Mirrors

论文链接:

https://ieeexplore.ieee.org/document/9903282

关键词:

畸变,凸面镜,语义分割,无监督域适应

 

研究背景

凸面镜由于可以提供大的视野,常常被用在街道拐角处或被用作汽车的乘客侧后视镜。通过反射视野盲区,凸面镜可以为行人和司机提供安全保障。

近年来,随着自动驾驶和智能交通的快速发展,如何智能地理解凸面镜反射的场景是一个重要的问题。然而 CNN 在语义分割方面取得了巨大的成就主要归功于利用大量标注数据的监督学习,然而人类在像素级的标注上所花费的时间和精力是巨大的。无监督领域适应方法(UDA)旨在将知识从标签丰富的源域转移到标签稀少的目标域,从而减少源域和目标域之间的域差距。

然而,已有方法重在缓解由渲染图像和真实图像或不同城市之间的风格带来的领域差异。对于正常图像和凸面镜反射图像而言,他们的差异主要体现在几何外观上,即凸面镜反射图像具有较大的畸变,而正常图像则没有。因此,以前的主要解决由风格差异带来域差异的无监督域适应方法,并不完全适用于解决由几何外观不同所带来的域差异。

北京大学的研究人员提出了一个框架,以缓解正常和凸面镜反射图像之间的几何域差异。他们根据凸面镜反射图像的变形特性对其进行几何建模,并提出了一个在线可微分凸面镜模拟网络层(Convex Mirror Simulation Layer,CMSL)。在 CMSL 的帮助下,分别对输入空间的低级边缘和输出空间的高级语义边界进行对抗性领域适应,以减少合成图像和真实图像之间的几何外观差距。

为了便于研究凸面镜反射图像的语义分割,作者在北京大学校园内采集数据,并贡献了一个数据集 Convex Mirror Reflection Dataset(CMR1K)。CMR1K 包含 268 张带有密集像素级语义注释的图像。实验结果表明,作者的方法在不同的源域和不同的骨干网络上都优于基线和以前的 UDA 方法。