神经网络模型最大的弊端就在于无法理解物理世界的常识,人类一眼就能看到的物体,AI模型却视而不见;盘子都漂浮在空中了,模型还觉得自己预测对了。MIT博士在NeurIPS 2021带来的工作也许能帮你在视觉模型中注入这些物理常识,获得三维场景感知能力!本文提出了一个基于概率推理的3D场景感知的生成模型3DP3。
论文链接:
https://arxiv.org/pdf/2111.00312
3DP3的核心就是一个生成式的建模框架,使用离散的物体及其三维形状和一个称为场景图(scene graph)的层次结构来表示场景,其中场景图的层次结构与物体的位置和朝向有关。
研究人员使用概率编程来建立框架,让系统能够从输入图像中检测到物体。通过概率推理(probabilistic inference)的方式也可以让系统推断出场景和物体的不匹配是由噪声还是预测错误导致的,增加了可解释性,也有利于下一步处理中的纠正。
模型使用了两个先验概率,1)从数据中学习到的概率作为物体形状的先验,2)图形上的概率分布作为场景结构的先验。然后从世界节点(world node)开始对场景图进行遍历来计算物体的位置、方向和深度图的似然模型。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢