Understanding the Cross-Domain Capabilities of Video-Based Few-Shot Action Recognition Models

简介

Few-shot action recognition (FSAR)旨在学习一种能够仅使用少量样本就能识别视频中新动作的模型。在假设元训练期间看到的基础数据集和用于评估的新数据集可以来自不同领域的情况下，跨领域少样本学习可以减轻需要更多监督和传统（单领域）少样本方法所需的数据收集和注释成本。虽然这种学习方式已经在图像分类方面得到了广泛研究，但是跨领域FSAR（CD-FSAR）的研究仅限于提出模型，而不是首先了解现有模型的跨领域能力。为此，我们系统地评估了现有的最先进的单领域、基于转移的和跨领域FSAR方法，针对新的跨领域任务进行了评估，难度逐渐增加，根据基础集和新集之间的领域差异进行测量。我们的经验元分析揭示了领域差异和下游少样本性能之间的相关性，并揭示了哪些模型方面对于CD-FSAR有效，哪些需要进一步发展。我们发现，随着领域差异的增加，简单的转移学习方法的表现优于其他方法超过12个百分点，并且在这些更具挑战性的跨领域设置下，专门的跨领域模型的性能最低。我们还见证了最先进的单领域FSAR模型使用时间对齐实现了与早期方法相似或更差的性能，这表明现有的时间对齐技术在未见过的领域上无法泛化。据我们所知，我们是第一个系统地深入研究CD-FSAR问题的人。我们希望我们研究中揭示的见解和挑战能够激励和指导未来在这些方向上的工作。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

论文旨在解决跨领域few-shot动作识别问题，即使用少量样本来识别新领域中的动作。作者想要了解现有模型在跨领域情况下的表现，并找出有效的方法来提高性能。

关键思路

论文通过系统评估现有单领域、基于转移和跨领域few-shot动作识别方法的性能，发现简单的迁移学习方法在领域差异较大时表现最佳。此外，论文还发现一些现有的时间对齐技术无法推广到新领域。

其它亮点

论文通过实验设计来评估现有模型在跨领域few-shot动作识别任务中的性能，并发现领域差异与性能之间存在相关性。作者还发现，现有的时间对齐技术无法推广到新领域。

Understanding the Cross-Domain Capabilities of Video-Based Few-Shot Action Recognition Models

提问交流

提问交流