人物交互检测 | ST-HOI：视频中人与目标交互检测的时空基线

【论文标题】ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction Detection in Videos

【作者团队】Meng-Jiun Chiou，Chun-Yu Liao，Li-Wei Wang，Jiashi Feng，Roger Zimmermann

【机构】新加坡国立大学，华硕智能云服务

【发表时间】2021/5/26

【论文链接】https://arxiv.org/pdf/2105.11731.pdf

【推荐理由】

本文针对人物交互检测任务中，仅在静态图像上操作的HOI方法被用来预测与时间相关的交互，存在没有时间上下文预测的缺陷，提出了视频中人与目标交互检测的时空基线（ST-HOI）

ST-HOI利用人和物体的运动轨迹、正确定位的视觉特征和时空掩码姿态特征等时间信息，显式添加在人物交互检测过程中，为视频人物交互检测提供一个新的时空感知基线。ST-HOI的结构示意图如图1所示，采用了一段视频作为框架，以3D-CNN为主干提取整个片段的时空特征图，为了纠正由时间RoI池引起的不匹配，基于物体轨迹生成时间感知特征，包括正确定位特征和时空掩码姿态特征，然后将这些特征与轨迹通过线性层连接和分类，最后为ideoHOI提供一个简单但有效的时间感知基线。

图1：ST-HOI结构示意图

内容中包含的图片若涉及版权问题，请及时与我们联系删除

人物交互检测 | ST-HOI：视频中人与目标交互检测的时空基线

评论列表

评论