- 简介本文介绍了一种名为零样本时序动作定位(ZS-TAL)的方法,其旨在识别和定位在训练期间未曾见过的未剪辑视频中的动作。现有的ZS-TAL方法涉及在大量注释训练数据上微调模型。虽然这种方法有效,但基于训练的ZS-TAL方法假定有标记数据可用于监督学习,这在某些应用中可能不切实际。此外,训练过程自然地将域偏差引入到学习模型中,这可能会对模型对任意视频的泛化能力产生不利影响。这些考虑促使我们从根本上新的角度来解决ZS-TAL问题,放宽对训练数据的要求。为此,我们引入了一种名为测试时适应时序动作定位(T3AL)的新方法。简而言之,T3AL适应了一个预先训练好的视觉和语言模型(VLM)。T3AL分为三个步骤。首先,通过聚合整个视频的信息计算出动作类别的视频级伪标签。然后,采用受自监督学习启发的新程序执行动作定位。最后,利用最先进的字幕模型提取的帧级文本描述用于细化动作区域提议。我们在THUMOS14和ActivityNet-v1.3数据集上进行了实验,验证了T3AL的有效性。我们的结果表明,T3AL显著优于基于最先进的VLM的零样本基线,证实了测试时适应方法的好处。
- 图表
- 解决问题本论文旨在从一个全新的角度解决零样本时序动作定位(ZS-TAL)问题,避免需要大量标注数据进行监督学习,同时减少模型对特定领域的偏置。
- 关键思路T3AL方法通过测试时自适应,利用预训练的视觉和语言模型进行动作定位。该方法包括三个步骤:计算整个视频的伪标签、采用自监督学习方法进行动作定位、使用最先进的字幕模型提取帧级文本描述以优化动作区域建议。
- 其它亮点论文在THUMOS14和ActivityNet-v1.3数据集上进行了实验验证,结果表明T3AL方法显著优于基于最先进的视觉和语言模型的零样本基线。该论文的方法具有较强的通用性和可扩展性。
- 与本论文相关的研究包括基于视觉和语言模型的零样本时序动作定位方法,以及基于自监督学习的动作定位方法。相关论文包括《Zero-Shot Action Localization via Vision-and-Language Navigation》和《Self-Supervised Learning for Action Localization》。
沙发等你来抢
去评论
评论
沙发等你来抢