C2C: Component-to-Composition Learning for Zero-Shot Compositional Action Recognition

2024年07月08日
  • 简介
    组合动作由动态(动词)和静态(物体)概念组成。人类可以轻松识别使用学习概念的未见组合动作。对于机器来说,解决这样的问题需要一个模型来识别先前观察到的动词和物体组成的未见动作,因此需要所谓的组合泛化能力。为了促进这项研究,我们提出了一项新的零样本组合动作识别(ZS-CAR)任务。为了评估该任务,我们基于广泛使用的Something-Something V2数据集构建了一个新的基准,Something-composition(Sth-com)。我们还提出了一种新的组件到组合(C2C)学习方法来解决新的ZS-CAR任务。C2C包括一个独立的组件学习模块和一个组合推理模块。最后,我们设计了一个增强的训练策略,以解决已见和未见组合之间的组件变化的挑战,并处理学习已见和未见动作之间微妙的平衡。实验结果表明,所提出的框架显著超越了现有的组合泛化方法,并设立了一个新的最先进技术水平。新的Sth-com基准和代码可在https://github.com/RongchangLi/ZSCAR_C2C上获得。
  • 图表
  • 解决问题
    论文尝试解决Zero-Shot Compositional Action Recognition (ZS-CAR)任务,即如何识别由先前观察到的动词和对象组成的未见过的动作组合。该任务需要具备组合泛化能力,而这是机器难以解决的问题。
  • 关键思路
    论文提出了一种Component-to-Composition (C2C)学习方法来解决ZS-CAR任务。该方法包括一个独立的组件学习模块和一个组合推理模块。同时,论文还设计了增强的训练策略来应对已见组合与未见组合之间的组件变化和学习已见和未见动作之间微妙平衡的挑战。
  • 其它亮点
    论文构建了一个新的基准测试数据集,Something-composition (Sth-com),基于广泛使用的Something-Something V2数据集。实验结果表明,论文提出的方法显著超过了现有的组合泛化方法,并取得了新的最优结果。论文提供了Sth-com基准测试数据集和代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如:《Zero-shot learning - A comprehensive evaluation of the good, the bad and the ugly》、《Zero-shot learning via joint latent similarity embedding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论