CVPR 2022 Oral | 技术点涵盖图形学&视觉顶会：图像拼接的DeepRectangling

论文链接：https://arxiv.org/abs/2203.03831

数据集和代码链接：https://github.com/nie-lang/DeepRectangling

导读

图像拼接提供了宽视角图像的合成(FoV)，但输出图像中会存在不规则的像素边界。为了解决这个问题，现有的图像矩形化（image rectangle）方法致力于搜索初始边界和优化目标边界以实现边界修正，然后通过拼接图像来生成标准的矩形图像。然而，这些解决方案仅适用于具有丰富线性结构的图像，导致具有非线性对象的拼接图像明显失真。在此背景下，本文提出了第一个拼接图像rectangling的深度学习解决思路，同时构建了第一个带标签的rectangling数据集，将计算机图形学问题结合新的深度学习范式并带至计算机视觉顶会。

贡献

图像拼接技术在获得广视角的同时也会带来了不规则的边界问题（如上图b）。为了获得规则的矩形边界，裁剪（如上图c）和图像补全（如上图d）为两种常见的方法，但这两种方法会减少原始图像内容或增加新的图像内容，使得这些结果在实际应用中并不完全可靠。为了解决上述问题，何恺明老师早在2013年就提出了第一个方法——rectangling（矩形化），并发表于计算机图形学顶会SIGGRAPH。该方法在不增加、不减少图像内容的基础上，通过网格变形的方式将不规则的拼接图映射为矩形。然而，该算法受限于LSD检测的性能同时也无法提取有效的语义感知特征，对结构复杂的场景并不鲁棒，其结果往往呈现出部分扭曲（如上图e）。

如上图所示，传统方法分为两个阶段：local warping和global warping：

在local warping阶段，首先借助seam-carving，通过不断向拼接图中插入感知不明显的seam，来使得拼接图逐渐变化为矩形，然后放置一个刚性的初始网格在其中，随后去掉之前插入的seam，使得该矩形逐渐退化为拼接图的形状。这样一插一抽的过程帮助获得了一个紧贴着拼接图边界的初始网格（initial mesh）；
在global warping阶段，设计3个约束项来优化拼接图边界的网格（optimized target mesh）：直线保持项（约束warp后直线不会扭曲），形状保持项（鼓励mesh中每个网格的变形为相似变换）和边界项（强制约束最终mesh边界紧贴矩形边界）；
通过从initial mesh到target mesh的warp，实现拼接图的矩形化。

不难发现，上述方法个两阶段的每一步都操作繁复，最后两个warp过程由于mesh的不规则也无法采用矩阵加速。

因此，本文提出了第一个拼接图像rectangling的深度学习解决思路，同时构建了第一个带标签的rectangling数据集。首先定义target mesh的形状（图2b “predefined target mesh”）为一个刚性的规则矩形，这种定义有助于矩形加速实现mesh warp，从而为深度学习实现mesh warp提供可能。随后rectangling被简化为了只需预测一个初始的mesh，并且这个初始的mesh必须和预定义的target mesh匹配。为此，利用神经网络从数据中学习mesh预测的能力。

方法

深度学习解决思路

与从单张图像中预测光流或深度类似，利用神经网络从单张图像中学习mesh预测是一个病态的问题。为了验证该问题的可解决性，本文没有设计复杂的网络结构，而是采用简单的特征提取+回归的思路。

具体网络结构如上图，首先将拼接图与mask进行拼接作为输入，然后堆叠了卷积-池化模块来提取特征，随后再通过简单的卷积来实现mesh的预测回归。其中mesh(U×V)被表示成了(U+1)×(V+1)个顶点，每个顶带包含x和y方向的偏移量，即mesh可被表示成(U+1)×(V+1)×2的volume。

为了对应何恺明方法中优化的3个能量项，本文也将损失函数分为3个部分：content term，mesh term和boundary term：

content term采用深度学习image generation任务中常见的L1 loss和感知损失，约束网络聚焦于语义感知明显的位置；
mesh term设计了一个网格间和网格内loss，约束相邻网格的相似性；
boundary term通过mask来约束rectangling的结果逼近标准矩形。

第一个带标签的rectangling数据集DIR-D

数据集的生成过程主要包括5个步骤：

采用ELA算法从UDISD数据集中拼接图像以收集广泛的真实拼接图像，去除了新增内容小于10%面积的图像；
使用何凯明老师的方法生成大量的变形mesh；
应用变形mesh的逆矩阵处理真实矩形图像（来自MS-COCO和收集的视频帧）以生成合成拼接图像，如图5（左）所示；
人工消除变形图像；
将真实的拼接图像混合到合成拼接图像的训练集中，以提高泛化能力。

简单说来，为了获得rectangling的数据集，DIR-D从正常的矩形图像出发，反向warp出非矩形的结果，来模拟拼接图的不规则边界。为了使得反向warp出的模拟拼接图更加真实且无畸变，DIR-D人工对warp的结果进行了严格的筛选，最终从六万多张样本中挑选出了5839个训练样本和519个测试样本，每个样本的分辨率为512×384。

实验

本文在提出的数据集(DIR-D)上对深度学习解决思路与传统方法进行全面的对比，如定量评估、无参定量评估、定性结果比较、user study等。

定量评估