当时间的维度从一维走向二维,时序上的建模方式也需要相应的改变。本文提出了多尺度二维时间图的概念和多尺度二维时域邻近网络(MS-2D-TAN)用于解决视频时间定位的问题。本文拓展自 AAAI 2020 [1],并将单尺度的二维时间建模拓展成了一个多尺度的版本。新模型考虑了多种不同时间尺度下视频片段之间的关系,速度更快的同时精度也更高。本文在基于文本的视频时间定位任务中验证了其有效性。相关内容将发表在 TPAMI上。

本文针对基于文本的视频时间定位提出了一种全新的多尺度二维时间表示方式并提出了一种新的多尺度时域邻近网络(MS-2D-TAN)。该模型可以很好的利用邻近时域的上下文信息,并学出有区分性的视频片段特征。该研究的模型设计简单,也同时在三个数据集上取得了有竞争力的结果。

内容中包含的图片若涉及版权问题,请及时与我们联系删除