PointNet：应用于三维分类和分割的深度神经网络

介绍

无序点云数据的深度学习方法研究则进展相对缓慢，这主要是因为点云具有三个特征：无序性、稀疏性、信息量有限。以往学者用深度学习方法在处理点云时，往往将其转换为特定视角下的深度图像或者体素（Voxel）等更为规整的格式以便于定义权重共享的卷积操作等本文中作者提出PointNet允许直接输入点云进行处理。

图1.PointNet的应用。它不需要对点云数据进行体素化或是渲染这样的预处理。作为一个统一的体系，能够学习全局和局部点特征，为许多3D识别任务提供了一个简单、高效和有效的方法。

点云特征

对于一个n维欧式空间里的点云，有三个主要特征：1.无序性：虽然输入的点云是有顺序的，但是显然这个顺序不应当影响结果。

2.点之间的交互：每个点不是独立的，而是与其周围的一些点共同蕴含了一些信息，因而模型应当能够抓住局部的结构和局部之间的交互。

3.变换不变性：点云整体的旋转平移不应该影响它的分类或者分割

图2. PointNet整体架构

该分类网络以n个点作为输入，进行输入和特征转换，然后通过max pooling对点特征进行聚合。输出是k个类别的分类分数。分割网络是分类网络的延伸。它连接全局和局部特征，并输出每个类别的分数。MLP表示多层感知器，括号中的数字表示层大小。Batchnorm用于所有带有ReLU的层。在分类网的最后一个mlp中使用了Dropout层。

用于无序输入的对称函数

为了让模型具有输入排列不变性（结果不受输入排列顺序的影响），一种思路是利用所有可能的排列顺序训练一个循环神经网络。作者在这里采用的思路是使用一个对称函数，将n个向量变为一个新的、与输入顺序无关的向量。（例如+和×是能处理两个输入的对称函数）。将点云排序是一个可能的对称函数，不过作者在这里采用一个微型网络（T-Net）学习一个获得3×3的变换矩阵函数，并对初始点云应用这个变换矩阵，这一部分被称为输入变换。随后通过一个mlp多层感知机后，再应用一次变换矩阵（特征变换）和多层感知机，最后进行一次最大池化。

整合局部和全局信息作者将经过特征变换后的信息称作局部信息，它们是与每一个点紧密相关的；我们将局部信息和全局信息简单地连接起来，就得到用于分割的全部信息。

实验结果

内容中包含的图片若涉及版权问题，请及时与我们联系删除

PointNet：应用于三维分类和分割的深度神经网络

介绍

点云特征

用于无序输入的对称函数

实验结果

评论