- 简介本文介绍了一种名为T-DEED的编码器-解码器模型,用于在体育视频中精确定位事件。T-DEED解决了任务中的多个挑战,包括需要区分帧表示、高输出时间分辨率以保持预测精度以及需要捕捉不同时间尺度上的信息以处理具有不同动态的事件等。它通过其专门设计的架构来解决这些挑战,其中包括编码器-解码器以利用多个时间尺度并实现高输出时间分辨率,以及设计用于增加令牌区分度的时间模块。利用这些特性,T-DEED在FigureSkating和FineDiving数据集上实现了SOTA性能。代码可在https://github.com/arturxe2/T-DEED上获得。
- 图表
- 解决问题T-DEED旨在解决运动视频中精确事件定位的问题,包括需要在帧表示之间具有可区分性,高输出时间分辨率以保持预测精度,以及需要捕获不同时间尺度上的信息以处理具有不同动态的事件。
- 关键思路T-DEED通过其专门设计的架构解决这些挑战,包括编码器-解码器,以利用多个时间尺度并实现高输出时间分辨率,以及设计用于增加令牌可区分性的时间模块。
- 其它亮点T-DEED在FigureSkating和FineDiving数据集上实现了SOTA性能。作者提供了开源代码,实验设计详细,使用了多个数据集进行评估。该论文的关键思路是新颖的,值得进一步研究。
- 最近的相关研究包括《Temporal Action Localization with Pyramid of Score Distribution Features》和《Temporal Pyramid Network for Action Recognition》等。
沙发等你来抢
去评论
评论
沙发等你来抢