SeqTrack：用于视觉目标跟踪的序列到序列学习

SeqTrack: Sequence to Sequence Learning for Visual Object Tracking

解决问题：SeqTrack论文旨在解决视觉目标跟踪的问题，将其视为一个序列生成问题，通过自回归的方式预测物体边界框的位置。相比于之前的Siamese跟踪器和变换器跟踪器，SeqTrack采用了简单的编码器-解码器变换器结构，避免了设计复杂的头网络。

关键思路：SeqTrack采用了序列学习范式，将跟踪问题转化为序列生成问题。其中，编码器通过双向变换器提取视觉特征，解码器则通过因果变换器自回归地生成一系列边界框值。SeqTrack的这种思路相比于当前领域的研究状况有着创新之处。

其他亮点：SeqTrack在LaSOT数据集上取得了72.5%的AUC，创造了新的最佳表现。此外，作者还提供了代码和模型。需要进一步研究的方向包括SeqTrack的扩展和在其他任务上的应用。

关于作者：Xin Chen、Houwen Peng、Dong Wang、Huchuan Lu和Han Hu是SeqTrack的主要作者，他们分别来自中国科学技术大学和华中科技大学。之前，他们的代表作包括：Huchuan Lu在CVPR 2017上发表的“Learning Multi-Domain Convolutional Neural Networks for Visual Tracking”、Han Hu在CVPR 2020上发表的“Relation-Shape Convolutional Neural Network for Point Cloud Analysis”等。

相关研究：近期其他相关的研究包括：Jiaming Sun等人的“Learning Dynamic Siamese Network for Visual Object Tracking”、Zhihong Zhang等人的“Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking”等。

论文摘要：本文提出了一种新的序列到序列学习框架SeqTrack，用于视觉目标跟踪。它将视觉跟踪视为序列生成问题，以自回归的方式预测物体边界框。这与之前的孪生跟踪器和变换器跟踪器不同，前者依赖于设计复杂的头网络，如分类和回归头。SeqTrack仅采用了简单的编码器-解码器变换器架构。编码器使用双向变换器提取视觉特征，而解码器使用因果变换器自回归地生成一系列边界框值。损失函数是简单的交叉熵。这种序列学习范式不仅简化了跟踪框架，而且在基准测试中实现了竞争性能。例如，SeqTrack在LaSOT上获得了72.5%的AUC，创造了新的最高性能水平。代码和模型可在此处获得。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

SeqTrack：用于视觉目标跟踪的序列到序列学习

评论列表

评论