视觉关系推理 | 以人为中心的关系分割：数据集和解决方案

【论文标题】Human-centric Relation Segmentation: Dataset and Solution

【作者团队】Shaohua Li, Xiuchao Sui, Xiangde Luo, Xinxing Xu, Yong Liu, Rick Siow Mong Goh

【发表时间】2021/05/20

【机构】北京航空航天大学、中科院、Sea AI Lab

【论文链接】https://arxiv.org/pdf/2105.11168.pdf

本文出自北京航空航天大学、中科院、Sea AI Lab 联合团队，已被 TPAMI 接收。在本文中，作者提出了一种细粒度的视觉关系检测问题，旨在预测人类与周围物体的关系，并识别与关系相关的人体部位。作者发布了用于该任务的数据集 PIC，并提出了相应的解决方案对比基线。

近年来，视觉和语言理解技术取得了显著进步，但目前的技术仍然难以很好地处理涉及非常细粒度的细节问题。例如，当机器人被告知「把女孩左手的书拿给我」时，如果女孩的左手和右手各拿着一本书，则大多数现有的方法将失效。

在本文中，作者引入了一种名为「以人为中心的关系分割」（HRS）的新任务，该任务可以被视为人物交互检测的细粒度版本。 HRS 旨在预测人类与周围实体之间的关系并识别与关系相关的人体部位，我们将这些部位表示为像素级掩码。对于上述示例，HRS 任务产生的输出为关系三元组 <girl [left hand], hold, book> 的形式，并给出精确分割出来的书本掩码，机器人可以轻松完成抓取任务。

本文作者为这项新任务收集了一个新的数据集——Person In Context (PIC) ，该数据集包含 17,122 张高分辨率图像和密集注释的实体分割和关系，包括 141 个对象类别、23 个关系类别和 25 个语义人体部位。

本文作者还提出了同时进行匹配和分割 (SMS) 的框架，该框架可以作为 HRS 任务的解决方案。它将实体分割、主语宾语匹配、人物解析三个分支的输出融合，从而以产生最终的 HRS 结果。

图 1：SMS 框架示意图

内容中包含的图片若涉及版权问题，请及时与我们联系删除

视觉关系推理 | 以人为中心的关系分割：数据集和解决方案

评论列表

评论