高质量追踪任何事物

Tracking Anything in High Quality

解决问题：本篇论文旨在解决视频中的视觉对象跟踪问题。该问题在计算机视觉领域中是一个基本的视频任务。本文提出了HQTrack框架，旨在通过视频多对象分割器（VMOS）和掩模细化器（MR）实现高质量的跟踪。

关键思路：HQTrack主要由VMOS和MR组成。VMOS在视频的初始帧中给出要跟踪的对象，并将对象掩模传播到当前帧。然而，由于VMOS仅在几个闭集视频对象分割（VOS）数据集上进行训练，因此在复杂和角落场景中的泛化能力有限，因此跟踪掩模的质量不够准确。为了进一步提高跟踪掩模的质量，本文采用预训练的MR模型对跟踪结果进行优化。

其他亮点：HQTrack在Visual Object Tracking and Segmentation（VOTS2023）挑战赛中排名第二，这证明了HQTrack的有效性。此外，作者已经开源了代码和模型，可以在https://github.com/jiawen-zhu/HQTrack上获取。

关于作者：Jiawen Zhu、 Zhenyu Chen、 Zeqi Hao、Shijie Chang、Lu Zhang、Dong Wang、Huchuan Lu1、Bin Luo2、Jun-Yan He2、Jin-Peng Lan2、Hanyuan Chen2、Chenyang Li2、Dalian University of Technology、China 2DAMO Academy、Alibaba Group

论文：https://arxiv.org/pdf/2307.13974.pdf

论文摘要：追踪任何高质量物体作者：朱嘉文，陈振宇，郝泽琪，常世杰，张璐，王东，卢虎川，罗斌，何俊艳，蓝劲鹏，陈涵元，李辰阳视觉物体跟踪是计算机视觉中的基本视频任务。最近，感知算法的显著增强使得单/多物体和基于框/掩码的跟踪得以统一。其中，Segment Anything Model (SAM)受到了广泛关注。在本报告中，我们提出了HQTrack，一个用于高质量跟踪视频中任何物体的框架。HQTrack主要由视频多物体分割器(VMOS)和掩码细化器(MR)组成。

给定要在视频的初始帧中跟踪的物体，VMOS将物体掩码传播到当前帧。由于VMOS是在几个最接近的视频物体分割(VOS)数据集上进行训练的，因此这个阶段的掩码结果不够准确，其泛化到复杂和棘手的场景的能力有限。

为了进一步提高跟踪掩码的质量，我们采用了预训练的MR模型来细化跟踪结果。作为我们模式有效性的有力证明，HQTrack在不使用任何技巧（如测试数据增强和模型集成）的情况下，在Visual Object Tracking and Segmentation (VOTS2023)挑战赛中排名第二。代码和模型可在https://github.com/jiawen-zhu/HQTrack获得。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

高质量追踪任何事物

评论列表

评论