Tracking Anything in High Quality

解决问题:本篇论文旨在解决视频中的视觉对象跟踪问题。该问题在计算机视觉领域中是一个基本的视频任务。本文提出了HQTrack框架,旨在通过视频多对象分割器(VMOS)和掩模细化器(MR)实现高质量的跟踪。

关键思路:HQTrack主要由VMOS和MR组成。VMOS在视频的初始帧中给出要跟踪的对象,并将对象掩模传播到当前帧。然而,由于VMOS仅在几个闭集视频对象分割(VOS)数据集上进行训练,因此在复杂和角落场景中的泛化能力有限,因此跟踪掩模的质量不够准确。为了进一步提高跟踪掩模的质量,本文采用预训练的MR模型对跟踪结果进行优化。

其他亮点:HQTrack在Visual Object Tracking and Segmentation(VOTS2023)挑战赛中排名第二,这证明了HQTrack的有效性。此外,作者已经开源了代码和模型,可以在https://github.com/jiawen-zhu/HQTrack上获取。

关于作者:Jiawen Zhu、 Zhenyu Chen、 Zeqi Hao、Shijie Chang、Lu Zhang、Dong Wang、Huchuan Lu1、Bin Luo2、Jun-Yan He2、Jin-Peng Lan2、Hanyuan Chen2、Chenyang Li2、Dalian University of Technology、China 2DAMO Academy、Alibaba Group

论文:https://arxiv.org/pdf/2307.13974.pdf 

论文摘要:追踪任何高质量物体 作者:朱嘉文,陈振宇,郝泽琪,常世杰,张璐,王东,卢虎川,罗斌,何俊艳,蓝劲鹏,陈涵元,李辰阳 视觉物体跟踪是计算机视觉中的基本视频任务。最近,感知算法的显著增强使得单/多物体和基于框/掩码的跟踪得以统一。其中,Segment Anything Model (SAM)受到了广泛关注。在本报告中,我们提出了HQTrack,一个用于高质量跟踪视频中任何物体的框架。HQTrack主要由视频多物体分割器(VMOS)和掩码细化器(MR)组成。

给定要在视频的初始帧中跟踪的物体,VMOS将物体掩码传播到当前帧。由于VMOS是在几个最接近的视频物体分割(VOS)数据集上进行训练的,因此这个阶段的掩码结果不够准确,其泛化到复杂和棘手的场景的能力有限。

为了进一步提高跟踪掩码的质量,我们采用了预训练的MR模型来细化跟踪结果。作为我们模式有效性的有力证明,HQTrack在不使用任何技巧(如测试数据增强和模型集成)的情况下,在Visual Object Tracking and Segmentation (VOTS2023)挑战赛中排名第二。代码和模型可在https://github.com/jiawen-zhu/HQTrack获得。

内容中包含的图片若涉及版权问题,请及时与我们联系删除