3D场景理解是近来人工智能较为火热的研究课题,其应用在自动驾驶场景感知,三维环境重建和合成等多个领域中。现有常见的三维场景解析方法大多需要依靠大规模的训练数据集进行监督训练,这样训练得到的模型无法泛化到真实场景中,而且容易受到目标遮挡和环境噪声的影响。
如何对这一问题进行突破?最近来自MIT计算机与人工智能实验室和丰田汽车研究院的研究人员提出了一种基于自监督学习的3D神经渲染方法,该方法在训练阶段会观察大量的未标记的多视图视频,并从中提取时序特征,学习将复杂的场景(例如街道上有很多行驶的汽车)的单个静态图像映射到3D神经空间中,随后将整体特征表示分解为静态背景对象和动态前景目标,同时合理的完成整体3D结构的表述。在测试阶段,该方法只需要输入单张图像,网络便可将图像中所包含的3D场景和实例级的前景目标解析出来,下图是本文方法整体操作流程的动画。
图片
此外,作者还进一步通过实验证明了本文方法可以作为很多下游任务的3D场景理解backbone,例如三维场景中对象的3D表示,新颖的3D视图合成,3D实例分割以及3D场景编辑等等。这都得益于本文引入了静态-动态分解机制(Static-Dynamic Disentanglement),为更加精细多维度的3D场景分析任务打下了基础。
图片

论文链接:

https://arxiv.org/abs/2207.11232
项目主页:

https://prafullsharma.net/see3d/

内容中包含的图片若涉及版权问题,请及时与我们联系删除