论文标题:Activity Graph Transformer for Temporal Action Localization 论文链接:https://arxiv.org/abs/2101.08540 代码链接:https://github.com/Nmegha2601/activitygraph_transformer 作者单位:西蒙弗雷泽大学, Borealis AI 在THUMOS14等数据集上表现SOTA!性能优于TGM、I3D等网络,代码刚刚开源!

我们介绍了Activity Graph Transformer,这是一个用于时序动作定位的端到端可学习模型,它接收视频作为输入并直接预测出现在视频中的一组动作实例。在untrimmed的视频中检测和定位动作实例需要对一个视频中的多个动作实例进行推理。文献中的主要范例在时间上处理视频,以提出动作区域或直接产生帧级检测。但是,当动作实例具有非顺序依赖性和/或非线性时间顺序时,例如重叠的动作实例或动作实例在视频过程中再次出现,则视频的顺序处理是有问题的。在这项工作中,我们通过将视频推理为图形式的非顺序实体来捕获这种非线性时间结构。我们在具有挑战性的数据集上评估我们的模型:THUMOS14,Charades和EPIC-Kitchens-100。我们的结果表明,我们提出的模型在很大程度上领先于最新技术。

内容中包含的图片若涉及版权问题,请及时与我们联系删除