SeqTrack: Sequence to Sequence Learning for Visual Object Tracking
解决问题:SeqTrack论文旨在解决视觉目标跟踪的问题,将其视为一个序列生成问题,通过自回归的方式预测物体边界框的位置。相比于之前的Siamese跟踪器和变换器跟踪器,SeqTrack采用了简单的编码器-解码器变换器结构,避免了设计复杂的头网络。
关键思路:SeqTrack采用了序列学习范式,将跟踪问题转化为序列生成问题。其中,编码器通过双向变换器提取视觉特征,解码器则通过因果变换器自回归地生成一系列边界框值。SeqTrack的这种思路相比于当前领域的研究状况有着创新之处。
其他亮点:SeqTrack在LaSOT数据集上取得了72.5%的AUC,创造了新的最佳表现。此外,作者还提供了代码和模型。需要进一步研究的方向包括SeqTrack的扩展和在其他任务上的应用。
关于作者:Xin Chen、Houwen Peng、Dong Wang、Huchuan Lu和Han Hu是SeqTrack的主要作者,他们分别来自中国科学技术大学和华中科技大学。之前,他们的代表作包括:Huchuan Lu在CVPR 2017上发表的“Learning Multi-Domain Convolutional Neural Networks for Visual Tracking”、Han Hu在CVPR 2020上发表的“Relation-Shape Convolutional Neural Network for Point Cloud Analysis”等。
相关研究:近期其他相关的研究包括:Jiaming Sun等人的“Learning Dynamic Siamese Network for Visual Object Tracking”、Zhihong Zhang等人的“Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking”等。
论文摘要:本文提出了一种新的序列到序列学习框架SeqTrack,用于视觉目标跟踪。它将视觉跟踪视为序列生成问题,以自回归的方式预测物体边界框。这与之前的孪生跟踪器和变换器跟踪器不同,前者依赖于设计复杂的头网络,如分类和回归头。SeqTrack仅采用了简单的编码器-解码器变换器架构。编码器使用双向变换器提取视觉特征,而解码器使用因果变换器自回归地生成一系列边界框值。损失函数是简单的交叉熵。这种序列学习范式不仅简化了跟踪框架,而且在基准测试中实现了竞争性能。例如,SeqTrack在LaSOT上获得了72.5%的AUC,创造了新的最高性能水平。代码和模型可在此处获得。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢