- 简介我们提出了 AllTracker:一个通过估算查询帧与视频中每一帧之间光流场来估计长距离点轨迹的模型。与现有的点追踪方法不同,我们的方法提供了高分辨率和密集(全像素)的对应关系场,这些场可以被可视化为光流图。与现有的光流方法不同,我们的方法将一帧与数百个后续帧相对应,而不仅仅是下一帧。我们为此任务开发了一种新的架构,融合了现有光流和点追踪技术中的方法:模型在低分辨率的对应关系估计网格上进行迭代推理,通过2D卷积层在空间上传播信息,并通过像素对齐的注意力层在时间上传播信息。该模型速度快且参数效率高(1600万参数),并在高分辨率下(即跟踪768x1024像素,在40G GPU上)实现了最先进的点追踪精度。我们的设计的一个优势是可以使用更广泛的多数据集进行训练,我们发现这对于达到最佳性能至关重要。我们对架构细节和训练策略进行了详尽的消融研究,明确了哪些细节最为重要。我们的代码和模型权重可以在 https://alltracker.github.io 获取。
- 图表
- 解决问题该论文试图解决长距离点跟踪问题,即在视频中为查询帧中的每个点找到其在后续多帧中的对应位置。这是一个具有挑战性的问题,因为需要处理大范围运动和长时间依赖关系,而现有方法通常只能处理短时间间隔的对应关系或仅提供稀疏点跟踪。
- 关键思路与传统的点跟踪和光流方法不同,AllTracker通过估计查询帧与视频中其他所有帧之间的密集对应场(以光流图形式表示)来实现高分辨率、密集的点跟踪。模型采用迭代推理机制,在低分辨率网格上进行初步估计,并结合2D卷积层进行空间信息传播以及像素对齐注意力机制进行时间信息传播。这种方法不仅能够对应到数百帧,还具备高效性和高精度的特点。
- 其它亮点1. 模型参数量仅为16M,但能够在高分辨率(768x1024)下运行,且支持GPU加速;2. 提供了广泛的实验验证,包括在多个数据集上的性能对比;3. 开源代码和预训练权重便于复现和进一步研究;4. 论文进行了详尽的消融实验,揭示了架构设计和训练策略的关键细节;5. 发现跨数据集训练对提升性能至关重要,这为未来研究提供了新方向。
- 相关研究包括:1. 光流估计领域的经典工作如RAFT [Teed and Belanger, 2020] 和FlowNet [Dosovitskiy et al., 2015];2. 点跟踪领域的代表性方法如SuperGlue [Sarlin et al., 2020] 和PAFT [Zhou et al., 2022];3. 长时间序列建模的研究,例如基于Transformer的时间注意力机制 [Carion et al., 2020]。此外,还有类似任务的研究,如视频对象分割 [Perazzi et al., 2016] 和运动分割 [Jain et al., 2017]。
沙发等你来抢
去评论
评论
沙发等你来抢