TrackDiffusion: Multi-object Tracking Data Generation via Diffusion Models

简介

扩散模型在生成图像分类和物体检测等感知任务的数据方面已经变得越来越重要。然而，在生成高质量的跟踪序列方面，这对于视频感知领域来说至关重要，但尚未得到充分研究。为了填补这一空白，我们提出了TrackDiffusion，这是一种新颖的架构，旨在从轨迹中生成连续的视频序列。TrackDiffusion与传统的布局到图像（L2I）生成和复制粘贴合成有着显著的不同，传统方法侧重于静态图像元素，如边界框，而TrackDiffusion则通过赋予图像扩散模型动态和连续的跟踪轨迹来捕捉复杂的运动细节，从而确保视频帧之间的实例一致性。我们首次证明生成的视频序列可用于训练多目标跟踪（MOT）系统，从而显著提高跟踪器的性能。实验结果表明，我们的模型显著提高了生成视频序列的实例一致性，从而提高了感知度量。我们的方法在YTVIS数据集上TrackAP和TrackAP$_{50}$分别提高了8.7和11.8，突显了其重新定义MOT任务及其他领域视频数据生成标准的潜力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在探究扩展扩散模型在生成高质量的视频跟踪序列方面的潜力，并验证其在多目标跟踪系统训练中的有效性。
关键思路

本文提出了一种名为TrackDiffusion的新型架构，利用图像扩散模型生成连续的视频序列，从而捕捉复杂的运动细节和保证视频帧之间的实例一致性。
其它亮点

本文的实验结果表明，TrackDiffusion在YTVIS数据集上提高了8.7的TrackAP和11.8的TrackAP$_{50}$，这证明了其在多目标跟踪任务的数据生成方面的潜力和重要性。
相关研究

与本文相关的研究包括L2I生成和复制粘贴合成等静态图像元素的传统方法，以及其他扩散模型在图像分类和物体检测等领域的应用。

TrackDiffusion: Multi-object Tracking Data Generation via Diffusion Models

提问交流

提问交流