Adaptively Bypassing Vision Transformer Blocks for Efficient Visual Tracking

简介

ABTrack是一种自适应计算框架，通过绕过Transformer块来实现高效的视觉跟踪。由于当前跟踪器速度较慢，限制了其在计算资源受限的设备上的适用性，因此ABTrack应运而生。ABTrack的理论基础在于观察到，语义特征或关系并不在所有抽象层面上对跟踪任务产生统一的影响。相反，这种影响基于目标和其所占据的场景的特征而变化。因此，在某些抽象层面上忽略不重要的语义特征或关系可能不会显著影响跟踪准确性。我们提出了一个绕过决策模块（BDM）来确定是否应该绕过Transformer块，从而自适应地简化ViTs的架构，加速推理过程。为了抵消BDM产生的时间成本并进一步提高ViTs的效率，我们创新地采用了剪枝技术来减少每个Transformer块中标记的潜在表示的维数。在多个跟踪基准上进行了广泛实验，验证了所提出的方法的有效性和普适性，并表明它达到了最先进的性能。代码已在以下网址发布：\href{https://github.com/1HykhqV3rU/ABTrack}
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决当前视觉跟踪器速度较慢，难以适用于计算资源受限设备的问题。
关键思路

提出一种自适应计算框架ABTrack，通过绕过transformer blocks来实现高效的视觉跟踪。通过Bypass Decision Module (BDM)决定是否绕过transformer blocks，以达到简化ViTs架构、加速推理的目的。同时，采用剪枝技术来减小每个transformer block中tokens的潜在表示的维度，以进一步提高ViTs的效率。
其它亮点

论文的实验结果表明，ABTrack具有较高的跟踪准确性和效率，并且在多个跟踪基准上均取得了最新的最佳结果。此外，作者还开源了代码。
相关研究

最近的相关研究包括：'Learning Dynamic Memory Networks for Object Tracking'、'Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking'等。

Adaptively Bypassing Vision Transformer Blocks for Efficient Visual Tracking

提问交流

提问交流