论文地址:https://arxiv.org/pdf/2203.14272.pdf

开源代码:https://github.com/zhihou7/scl

摘要

全面理解人-物交互(HOI)不仅需要检测一小部分预定义的HOI概念(或范畴),还需要检测其他合理的HOI概念,而现有的方法通常无法探索大量未知的HOI概念(即未知但合理的动词和对象组合)。在本文中,1)我们提出了一个新颖而又具有挑战性的任务,即HOI概念发现;2)我们设计了一个用于HOI概念发现的自组合学习框架(或SCL)。具体来说,我们在训练过程中保持一个在线更新的概念置信度矩阵:1)根据概念置信度矩阵为所有复合HOI实例分配伪标签进行自我训练;2)利用所有复合HOI实例的预测更新概念置信度矩阵。因此,所提出的方法能够同时学习已知和未知的HOI概念。我们在几个流行的HOI数据集上进行了大量的实验,证明了该方法在HOI概念发现、对象提供性识别和HOI检测方面的有效性。例如,所提出的自组合学习框架在HICO-DET和V-COCO上分别提高了10%和3%以上的HOI概念发现性能;2)在MS-COCO和HICODET上分别提高了9%和9%以上的mAP目标识别性能;3)稀有优先和非稀有优先未知HOI检测性能分别提高了30%和20%以上。

主要贡献

我们的主要贡献可以概括如下:1)我们引入了一个新的任务,以更好地全面理解人与对象的交互;2)我们设计了一个同时用于HOI概念发现和对象提供识别的自组合学习框架;3)我们在两个扩展的基准上对所提出的方法进行了评估,它显著地提高了HOI概念发现的性能,方便了HOI模型的对象提供识别,并实现了新概念的HOI检测。

实验

我们用TensorFlow[1]实现了所提出的方法。在训练过程中,我们在每个小批中有两个HOI图像(随机选择),我们遵循[19]通过随机裁剪和随机移位来增加地面真相盒。我们使用了一个改进的HOI组合学习框架,即直接预测动词类,并使用SCL优化组合HOI。在[27,29]的基础上,将总损耗函数定义为\( L=\lambda_1L_h+\lambda_2L_c+\lambda_3L_d \),其中HICO-DET上的λ1=2,λ2=0.5,λ3=0.5,V-COCO上的λ1=0.5,λ2=0.5,λ3=0.5。在[29]之后,我们还包括动词表示的sigmoid损失,在HICO-DET上损失权重为0.3。对于自训练,当复合HOIs对应的概念置信度为0时,即概念置信度未更新时,将其删除。如果没有说明,主干是resnet-101。分类器是一个两层MLP。在HICO-DET上训练3.0M迭代,在HOI-COCO上训练300K迭代,初始学习率为0.01。对于零镜头HOI检测,我们分别保留HICO-DET上得分大于0.3和0.1的人和物体。参见附录D中的更多消融研究(例如,超参数、模块)。实验使用单个特斯拉V100 GPU(16GB)进行,但在Qpic[55]上的实验除外,该实验使用四个带有PyTorch[46]的V100 GPU。

内容中包含的图片若涉及版权问题,请及时与我们联系删除