Long-term Frame-Event Visual Tracking: Benchmark Dataset and Baseline

2024年03月09日
  • 简介
    本文提出了一个新的长期和大规模帧事件单目标跟踪数据集FELT,其中包含742个视频和1,594,474个RGB帧和事件流对,成为迄今为止最大的帧事件跟踪数据集。我们在该数据集上重新训练和评估了15个基线跟踪器,以便未来的工作进行比较。更重要的是,我们发现由于具有挑战性的因素和空间稀疏的事件流的影响,RGB帧和事件流自然是不完整的。为了应对这一问题,我们提出了一种新颖的联想记忆Transformer网络作为统一的骨干,通过将现代Hopfield层引入多头自注意块来融合RGB和事件数据。在FELT和RGB-T跟踪数据集LasHeR上进行了广泛的实验,验证了我们模型的有效性。数据集和源代码可在\url{https://github.com/Event-AHU/FELT_SOT_Benchmark}找到。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决长期跟踪问题,提出了一个新的大规模帧事件单目标跟踪数据集FELT,并针对数据集提出了一种新的联想记忆Transformer网络。
  • 关键思路
    通过引入现代Hopfield层到多头自注意力块中,将RGB和事件数据融合,提出了一种新的联想记忆Transformer网络。
  • 其它亮点
    论文提出了一个新的大规模帧事件单目标跟踪数据集FELT,并重新训练和评估了15个基线跟踪器。论文提出的联想记忆Transformer网络在FELT和RGB-T跟踪数据集上进行了广泛的实验,并证明了其有效性。数据集和源代码已在GitHub上开源。
  • 相关研究
    最近的相关研究包括:《Learning to Track at 100 FPS with Deep Regression Networks》、《Visual Tracking with Fully Convolutional Networks》、《Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问