视频目标跟踪是计算机视觉中的重要任务之一,在实际生活中有着广泛的应用,例如视频监控、视觉导航等。视 频目标跟踪任务也面临着诸多挑战,如目标遮挡、目标形变等情形。为解决目标跟踪中的挑战,实现精确高效的目标跟踪, 近年来出现大量的目标跟踪算法。本文介绍了近十年来视频目标跟踪领域两大主流算法框架(基于相关滤波和孪生网络的目 标跟踪算法)的基本原理、改进策略和代表性工作,之后按照网络结构分类介绍了其他基于深度学习的目标跟踪算法,还从 解决目标跟踪所面临挑战的角度介绍了应对各类问题的典型解决方案,并总结了视频目标跟踪的历史发展脉络和未来发展趋 势。本文还详细介绍和比较了面向目标跟踪任务的数据集和挑战赛,并从数据集的数据统计和算法的评估结果出发,总结了 各类视频目标跟踪算法的特点和优势。针对目标跟踪未来发展趋势,本文认为视频目标跟踪还面临诸多难题亟需解决,例如 当前的算法往往无法在长时间、低功耗、抗干扰的环境下实地应用。未来,考虑多模态数据融合,如将深度图像、红外图像 数据与传统彩色视频联合分析,将会为目标跟踪带来更多新的解决方案。目标跟踪任务也将会和其他任务,如视频目标检测、 视频目标分割,相互促进共同发展。

论文下载

  1. 引言 

视频目标跟踪是计算机视觉领域重要的基础 性研究问题之一,是指在视频序列第一帧指定目标 后,在后续帧持续跟踪目标,即利用边界框(通常 用矩形框表示)标定目标,实现目标的定位与尺度 估计(目标跟踪问题通常分为单目标跟踪和多目标 跟踪,本文主要关注单目标跟踪问题)。视频目标 跟踪具有广泛的应用价值,包括 1) 公共安防领域 [1]:对人群或重点对象进行跟踪定位,实现监控场 景下可疑人员轨迹重建与实时定位[2–4];2) 自动驾 驶领域[5]:辅助自主导航,轨迹规划等功能的实现; 3) 智能机器人领域:用于机器人视觉导航,关注目标的运动轨迹捕获与主动追踪;4) 人机智能交互领 域:通过人体关键部位(如手部)跟踪与识别,实 现计算机根据人体特定动作或手势等完成相应反 馈。由于存在诸多技术挑战和潜在应用价值,视频 目标跟踪近年来也引起学术界和工业界的广泛关 注和大量研究[6,7]。视频目标跟踪的挑战主要体现在 跟踪目标为非特定物体,且目标在视频序列往往会 发生不可预期的变化和干扰。正是因为目标的非特 定性,目标跟踪器无法预先对跟踪目标进行预先训 练或建模。而在跟踪过程中,还会产生如目标消失、 目标外观变化、背景干扰、目标快速移动等诸多问 题,对目标跟踪造成严峻的挑战。

为解决目标跟踪问题中的困难,建立精确和高 效的目标跟踪器,大量的目标跟踪算法应运而生。 早期的目标跟踪采用了许多经典的机器学习方法, 如支持向量机[8, 9],集成学习[10],稀疏重建[11]等。 近年来,目标跟踪领域发展迅速。图 1 分类汇总 了近十年来目标跟踪领域的主流算法框架和代表 性方法。首先,2010 年,基于相关滤波的目标跟 踪算法开始出现[12],由于其具备良好的精度和超高 的速度,迅速引起了相关研究者的广泛关注,围绕 相关滤波算法框架,许多优化方法,如特征优化、 模型优化应运而生,使得相关滤波目标跟踪算法发 展成为近十年来目标跟踪的主流方法之一,在相关 工作数量和各大数据集的性能表现上均具有明显 优势。最近,深度学习在计算机视觉领域展现了强 大的性能[13,14],基于深度学习的目标跟踪算法也相 继问世,其中孪生网络由于相比于其他深度学习算 法框架具备较高的计算速度,因此受到更广泛的关 注和研究[15],围绕孪生滤波网络的一系列方法也展 现出强大的竞争力。另外,其他深度神经网络如卷 积神经网络,循环神经网络以及图卷积神经网络也 都在目标跟踪算法中得以应用,并展现出一定的优 势。对于目标跟踪算法,本文首先以目标跟踪近年 来的两大主流算法框架—相关滤波和孪生网络为 主线,介绍两类方法的发展历程及具有代表性的相 关工作,本文也将介绍其他深度学习框架下的相关 算法。此外,本文还将重点介绍应对目标跟踪面临 主要挑战问题的解决方案和代表性工作,包括上述 提到的目标消失、目标外观变化、背景干扰、目标 快速移等问题。

除了目标跟踪算法,算法评估数据集和挑战赛 也是推动目标跟踪任务快速发展的重要动力之一。 从最早期的 OTB [16] 数据集只包含 50 个视频,平 均长度约 500 帧,到最新的 LaSOT[17]数据集包含 1,400 个视频,平均长度超 2,500 帧。视频目标跟 踪数据集正向大规模、长时间、多样化的方向一步 步发展。本文也将详细介绍和比较近年来视频目标 跟踪任务的数据集,包括 10 个普通彩色 (RGB) 视频数据集,1 个彩色-深度 (RGB-D) 视频以及 1 个彩色-红外 (RGB-T) 视频数据集。本文还介绍了 目标跟踪主流挑战赛 VOT 的视频特点、评估方式 等,以及近年来挑战赛的主要结果与分析。

尽管近年来目标跟踪算法在上述数据集上取 得了较高的精度,但是视频目标跟踪距离实际应用 还具有一定的差距。本文最后还从多个方面详尽讨 论了目标跟踪未来的发展趋势1)首先,针对目 标跟踪发展面临的痛点,如目前算法无法适用于长 时间、低功耗、抗干扰场景等,本文将重点介绍目 标跟踪算法距离实际落地应用面临的瓶颈难题。例 如,目前的目标跟踪数据集虽然视频长度已经较前 些年明显增长,但是现实场景中往往需要实现分钟 级别甚至小时级别的视频目标跟踪,因此实现长时 间目标跟踪是未来的重要发展方向之一。此外,现 有的跟踪算法尤其是基于深度网络或深度特征的 算法,往往需要高性能设备支持,考虑到视频目标 跟踪的应用场景,低功耗设备上的轻量级算法开发 也是该领域的研究方向之一。面临深度学习需要大 量训练数据的痛点,减少训练数据标注的弱监督、 无监督方法也是目标跟踪未来的发展方向之一。还 有考虑到算法的安全性及鲁棒性,针对目标跟踪算 法的对抗攻击机制也开始兴起。此外,本文还涉及 了特定场景,如无人机航拍视频,遥感图像下的目 标跟踪研究。2)为实现更加鲁棒的跟踪,随着多 模态数据采集设备的兴起与普及,考虑多视频源数 据输入,如深度图像、红外图像等,用于视频目标 跟踪,可以从数据源上有效地解决传统彩色视频中 目标遮挡,光照变化等情形对跟踪带来的挑战。3) 最后,为探究目标跟踪更多的应用长场景与交叉研 究,本文还介绍了目标跟踪与计算机视觉领域其他 密切相关任务,如视频目标检测、分割等问题的交 叉研究。

本文后续章节的组织如下,第二章主要介绍视 频目标跟踪任务面临的诸多挑战,第三章将分类介 绍近十年来目标跟踪问题的主要方法,第四章介绍 目标跟踪任务的主流评估数据集和挑战赛,以及相 关算法在数据集和挑战赛上的评估结果和成绩,第 五章展望了视频目标跟踪任务未来的发展趋势,最后,第六章对全文进行了总结。