DENOISER: Rethinking the Robustness for Open-Vocabulary Action Recognition

2024年04月23日
  • 简介
    作为计算机视觉中基础的视频任务之一,开放词汇动作识别(OVAR)近来因视觉语言预训练的发展而备受关注。为了实现对任意类别的泛化,现有方法将类别标签视为文本描述,然后将OVAR制定为评估视觉样本和文本类别之间嵌入相似性。然而,一个关键问题被完全忽视了:用户提供的类别描述可能存在噪声,例如拼写错误和打字错误,这限制了普通OVAR在现实世界中的实用性。为了填补研究空白,本文首创通过模拟各种类型的多级噪声来评估现有方法,并揭示它们的鲁棒性较差。为了解决噪声OVAR任务,我们进一步提出了一个新颖的去噪框架DENOISER,包括两个部分:生成和判别。具体而言,生成部分通过一个解码过程去噪嘈杂的类文本名称,即提出文本候选项,然后利用模态间和模态内信息来投票选择最佳选项。在判别部分,我们使用普通的OVAR模型将视觉样本分配给类文本名称,从而获得更多的语义信息。为了优化,我们交替迭代生成和判别部分进行逐步改进。去噪后的文本类别有助于OVAR模型更准确地分类视觉样本;反过来,分类的视觉样本有助于更好的去噪。在三个数据集上,我们进行了广泛的实验,展示了我们的优越鲁棒性,并通过全面的消融实验来分析每个组件的有效性。
  • 图表
  • 解决问题
    论文旨在解决Open-Vocabulary Action Recognition(OVAR)中类别标签文本描述存在噪声的问题,提出一种新的DENOISER框架来解决这个问题。
  • 关键思路
    DENOISER框架包括生成和判别两个部分,通过提出文本候选项并利用交叉模态和内部模态信息进行投票来去噪声。同时,利用OVAR模型将视觉样本分配给文本类别名称,以便更好地去噪声。
  • 其它亮点
    论文通过模拟多级噪声的各种类型来评估现有方法的鲁棒性,并揭示了它们的不足。DENOISER框架在三个数据集上进行了广泛的实验,展示了其优越的鲁棒性,并进行了彻底的消融实验以分析每个组件的有效性。
  • 相关研究
    最近的相关研究包括:'Action Genome: Actions as Compositions of Spatio-Temporal Scene Graphs','Temporal Cycle-Consistency Learning'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论