近日,阿里巴巴淘系技术多媒体算法团队与计算机视觉青年学者刘偲副教授团队合作论文 CDN:《Mining the Benefits of Two-stage and One-stage HOI Detection》 被 NeurIPS 2021 接收,全部代码及模型均已开源。本次合作论文在业界首次提出融合two-stage和one-stage思想的transformer-based HOI检测方法,大幅刷新了HOI领域多个数据集的指标。截止到发稿,本文为公开发表(含Arxiv)的HOI数据集的性能SOTA。

地址:

摘要:

在人物交互关系检测(Human-Object Interaction Detection, HOI)领域,两阶段范式是相对传统的方法,一阶段范式是近期开始流行起来的方法。我们探索了两阶段和一阶段范式各自的优缺点:两阶段范式主要受限于如何定位有关系的人-物对,而一阶段范式主要受限于如何权衡实体检测和关系分类的多任务学习。因此,如何发扬这两种范式各自的优势和抑制两种范式各自的劣势,成为一个核心问题。

我们提出了一种新颖的一阶段范式:通过级联的方式来解耦人-物对检测和关系分类。即,采用去掉关系分类多任务学习的一阶段范式作为人-物对检测器,然后设计一个独立的关系分类器来确定人-物对的关系类别。这样,两个级联的解码器可以解耦地分别关注人-物对检测和关系分类任务。

具体实施上,我们采用了基于transformer的HOI检测器来实现我们的设计。通过这种解耦的HOI检测范式,我们在两个大规模HOI数据集上都实现了目前业绩最优的效果,在HICO-DET和V-COCO上的mAP分别相对提升了9.32%和5.94%。

内容中包含的图片若涉及版权问题,请及时与我们联系删除