【论文名称】QPIC: Query-Based Pairwise Human-Object Interaction Detection with Image-Wide Contextual Information 【作者团队】Masato Tamura , Hiroki Ohashi , Tomoaki Yoshinaga 【发表时间】2021/03/9 【作者机构】日立Lumada数据科学实验室 【论文链接】https://arxiv.org/pdf/2103.05399.pdf

【推荐理由】

本文针对人-物交互检测(HOI)领域中,CNN网络经常需要手动定义感兴趣位置来进行特征聚类,会导致网络漏掉图中部分上下文重要的特征区域,同时容易将多个位置相近的HOI实例混淆等缺陷,提出了基于查询图像上下文信息的成对人物交互检测方法(QPIC)。 QPIC方法采用了基于Tansformer结构的特征提取器,通过注意力机制聚集图像范围内的重要上下文信息,基于查询的检测器每个查询最多捕获一对人类对象,避免多个实例特征的混淆。这种基于Tansformer结构的方法简单有效,使得后续的检测头更加简单和直观。模型结构示意图如图1所示,模型检测时首先输入一张图像,经过特征提取后输入到Tansfomer结构中进行特征聚类,然后经过基于查询的检测器获得多个HOI检测框。

图1:QPIC结构示意图

在实验部分,作者经过大量实验和分析,发现注意力机制和基于查询的检测对HOI的检测可以起到重要的推动作用。

内容中包含的图片若涉及版权问题,请及时与我们联系删除

点赞 收藏 评论 分享到Link

沙发等你来抢

去评论