论文标题:TubeR: Tube-Transformer for Action Detection 论文链接:https://arxiv.org/abs/2104.00969 作者单位:阿姆斯特丹大学 & 亚马逊
表现SOTA!性能优于MOC、STEP等网络。
在本文中,我们提出了TubeR:这是第一个用于端到端动作检测的基于Transformer的网络,其编码器和解码器经过优化,可以对具有可变长度和长宽比的动作pipeline进行建模。TubeR不依赖手动设计的tube结构,可以随着时间的推移自动链接预测的动作框,并学习与动作相关的一组tube查询。通过学习动作tube嵌入,TubeR可以预测具有更灵活的空间和时间范围的更精确的动作tube。我们的实验证明TubeR在UCF101-24和J-HMDB的单流方法中达到了最先进的水平。TubeR在AVA上的表现优于现有的一种模型方法,甚至在两种模型方法上都具有竞争力。此外,我们观察到TubeR具有追踪具有不同动作的actors的潜力,这将促进对远程视频理解的未来研究。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢