TAFormer: A Unified Target-Aware Transformer for Video and Motion Joint Prediction in Aerial Scenes

简介

随着无人机技术的进步，使用无人机进行航空测量已成为现代低空遥感的主要趋势。航空视频数据的激增需要对感兴趣目标的未来情景和运动状态进行准确预测，特别是在交通管理和灾害响应等应用中。现有的视频预测方法仅关注于预测未来场景（视频帧），忽略了明确建模目标运动状态的重要性，而这对于航空视频解释至关重要。为解决这个问题，我们引入了一个新的任务，称为目标感知航空视频预测，旨在同时预测未来场景和目标的运动状态。此外，我们专门为此任务设计了一种模型，名为TAFormer，为视频和目标运动状态提供了统一的建模方法。具体而言，我们引入了时空注意力（STA），将视频动态学习分解为空间静态注意力和时间动态注意力，有效地建模场景外观和运动。此外，我们设计了一种信息共享机制（ISM），通过两组信使令牌促进信息交互，优雅地统一了视频和目标运动的建模。此外，为了减轻模糊预测中区分目标的困难，我们引入了目标敏感高斯损失（TSGL），增强了模型对目标位置和内容的敏感性。在UAV123VP和VisDroneVP（从单目标跟踪数据集派生而来）上的大量实验表明，TAFormer在目标感知视频预测方面表现出色，展示了它适应航空视频解释对目标感知的额外要求的能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决现有视频预测方法忽略目标运动状态建模的问题，提出了一种新的任务——目标感知的航空视频预测，并设计了一个专门针对此任务的模型TAFormer。
关键思路

论文提出了一种新的模型TAFormer，通过引入时空注意力机制（STA）和信息共享机制（ISM）来同时预测未来场景和目标运动状态，实现了视频和目标运动状态的统一建模。
其它亮点

论文在UAV123VP和VisDroneVP数据集上进行了广泛的实验，展示了TAFormer在目标感知的视频预测方面的出色性能，具有很好的应用前景。论文还提出了目标敏感的高斯损失（TSGL）来增强模型对目标位置和内容的敏感度。
相关研究

近期相关研究包括：1. SiamRPN++ [Li et al. CVPR 2019]；2. SiamFC [Bertinetto et al. ECCV 2016]；3. ATOM [Danelljan et al. CVPR 2019]。

TAFormer: A Unified Target-Aware Transformer for Video and Motion Joint Prediction in Aerial Scenes

提问交流

提问交流