Long-term Frame-Event Visual Tracking: Benchmark Dataset and Baseline

简介

本文提出了一个新的长期和大规模帧事件单目标跟踪数据集FELT，其中包含742个视频和1,594,474个RGB帧和事件流对，成为迄今为止最大的帧事件跟踪数据集。我们在该数据集上重新训练和评估了15个基线跟踪器，以便未来的工作进行比较。更重要的是，我们发现由于具有挑战性的因素和空间稀疏的事件流的影响，RGB帧和事件流自然是不完整的。为了应对这一问题，我们提出了一种新颖的联想记忆Transformer网络作为统一的骨干，通过将现代Hopfield层引入多头自注意块来融合RGB和事件数据。在FELT和RGB-T跟踪数据集LasHeR上进行了广泛的实验，验证了我们模型的有效性。数据集和源代码可在\url{https://github.com/Event-AHU/FELT_SOT_Benchmark}找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决长期跟踪问题，提出了一个新的大规模帧事件单目标跟踪数据集FELT，并针对数据集提出了一种新的联想记忆Transformer网络。
关键思路

通过引入现代Hopfield层到多头自注意力块中，将RGB和事件数据融合，提出了一种新的联想记忆Transformer网络。
其它亮点

论文提出了一个新的大规模帧事件单目标跟踪数据集FELT，并重新训练和评估了15个基线跟踪器。论文提出的联想记忆Transformer网络在FELT和RGB-T跟踪数据集上进行了广泛的实验，并证明了其有效性。数据集和源代码已在GitHub上开源。
相关研究

最近的相关研究包括：《Learning to Track at 100 FPS with Deep Regression Networks》、《Visual Tracking with Fully Convolutional Networks》、《Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking》等。

Long-term Frame-Event Visual Tracking: Benchmark Dataset and Baseline

提问交流

提问交流