来自MIT-IBM 沃森人工智能实验室首席科学家淦创团队提出了新一代视觉推理数据集,该数据集提出了基于局部(part)的视觉推理,并融合了五类人类认知推理任务:概念型推理,关系型推理,类比型推理,数学推理和物理推理。
现有的视觉推理数据集主要关注整个物体,而不是物体中的局部。由于更细粒度的概念、更丰富的几何关系和更复杂的物理关系,基于部分 - 整体层次结构的视觉推理比以物体整体为中心的推理更具挑战性。
因此,为了更好地阐释和理解基于局部的概念和关系,本文引入了一个新的名为 PTR 的大规模诊断型视觉推理数据集。PTR 包含大约七万 RGBD 合成图像,带有关于语义实例分割、颜色属性、空间和几何关系以及某些物理属性(例如稳定性)的物体和局部标注。这些图像配有五种类型的问题:概念型推理,关系型推理,类比型推理,数学推理和物理推理。这些类型均来自于人类认知推理的重要方面,但在以往的工作中并没有被充分探索过。
本文在这个数据集上检验了几个最先进的视觉推理模型。研究者观察到它们的表现远远不及人类表现,特别是在一些较新的推理类型(例如几何,物理问题)任务上。该研究期待这个数据集能够促进机器推理向更复杂的人类认知推理推进。
论文地址:
http://ptr.csail.mit.edu/assets/ptr.pdf
项目主页:
PTR 数据集介绍
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢