Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance

简介

本文受到大型语言模型中参数高效微调（PEFT）的启发，提出了一种名为LoRAT的方法，可以在实验室级别的资源内发挥更大的视觉转换器（ViT）的追踪能力。我们的工作的核心在于将fine-tune小型模型参数的技术LoRA应用于视觉跟踪领域，而不会增加推理延迟。然而，独特的挑战和潜在的领域差距使得这种转移并不像第一直觉那么容易。首先，基于transformer的跟踪器为模板和搜索图像构建不共享的位置嵌入。这给LoRA的转移带来了挑战，通常需要在应用于预训练的骨干时保持设计的一致性。其次，卷积头中固有的归纳偏差降低了参数高效微调在跟踪模型中的有效性。为了克服这些限制，我们首先将transformer-based跟踪器中的位置嵌入解耦为共享的空间嵌入和独立的类型嵌入。共享嵌入描述多分辨率图像（即模板和搜索图像）的绝对坐标，继承自预训练的骨干。相反，独立的嵌入表示每个标记的来源，并从头开始学习。此外，我们设计了一个仅基于多层感知器（MLP）的无锚头，以适应PETR，从而实现更好的性能和更少的计算开销。通过我们的设计，1）在仅具有25.8GB内存（批量大小为16）的GPU上训练ViT-g骨干的跟踪器变得实际可行；2）我们将L-224变体的训练时间从35.0减少到10.8 GPU小时；3）我们将LaSOT SUC分数从0.703提高到L-224变体的0.743；4）我们将L-224变体的推理速度从52提高到119 FPS。代码和模型将会发布。
图表
解决问题

本文旨在通过适应LoRA技术，将大型Vision Transformers（ViT）应用于视觉跟踪任务，解决在实验室级资源内进行跟踪的问题。
关键思路

本文提出了一种新的方法LoRAT，通过将位置嵌入分解为共享空间嵌入和独立类型嵌入，并设计了一个基于多层感知器（MLP）的无锚头，使得PETR方法更加适用于视觉跟踪任务。
其它亮点

本文的设计使得可以在只有25.8GB内存（批量大小为16）的GPU上训练ViT-g骨干网络的跟踪器；将L-224的训练时间从35.0 GPU小时减少到10.8 GPU小时；将LaSOT SUC分数从0.703提高到0.743；将L-224变体的推理速度从52提高到119 FPS。作者将代码和模型进行了开源。
相关研究

在相关研究方面，最近的一些相关研究包括：《An Embarrassingly Simple Approach for Unsupervised Domain Adaptation》、《Semi-Supervised Domain Adaptation via Minimax Entropy》等。

Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance

评论