【论文标题】Reformulating HOI Detection as Adaptive Set Prediction 【作者团队】Mingfei Chen,Yue Liao,Si Liu,Zhiyuan Chen,Fei Wang,Chen Qian 【发表时间】2021/03/10 【机构】华中科技大学、北京航空航天大学、商汤科技 【论文链接】https://arxiv.org/pdf/2103.05983.pdf 【推荐理由】 本文出自华中科技大学、北京航空航天大学、商汤科技联合团队,作者重新将 HOI 定义为了一个自适应的集合预测问题,设计了一种基于 Transformer 框架的双流 HOI 检测模型,效果远超目前的 SOTA 算法。

在「人-物」交互检测(HOI)任务中,确定应该关注哪个图像区域是非常重要的。传统的 HOI 检测器要么重点关注检测到的「人-物」对,要么重点关注预先定义好的交互位置,而这限制了对于有效特征的学习。 在本文中,作者重新将 HOI 定义为了一个自适应的集合预测问题。在这种新的定义下,作者提出了一种基于自适应集合的单阶段 HOI 检测框架(AS-Net),它包含并行的实例和交互分支。为了实现上述目标,本文作者通过 Transformer 将可训练的交互查询集合映射到了一个交互预测集合上。每个查询框都会自适应地通过多头联合注意力机制,从全局上下文中聚合与交互相关的特征。 此外,作者通过将每个真实交互对和交互预测匹配起来,从而自适应地监督训练过程。做而后者还设计了一种高效的「实例感知」注意力模块,将实例分支中有指导性的特征引入交互分支。

图 1:AS-Net 模型框架示意图。
首先,作者将卷积神经网络和 Transformer 编码器用于提取带有全局上下文的特征序列。接着, 作者基于 Transformer 解码器构建了实例分支和交互分支。「实例感知」注意力模块被用来将与交互相关的实例特征从示例分支引入交互分支。最后,检测到的实例会与交互预测相匹配,从而推测出 HOI 三元组。

内容中包含的图片若涉及版权问题,请及时与我们联系删除