Multimodal Distillation for Egocentric Action Recognition
解决问题:这篇论文旨在解决以手-物交互为核心的自我中心视频理解问题。当前的标准模型如卷积神经网络或视觉Transformer以RGB帧为输入表现良好,但是当它们使用提供补充线索的其他输入模态(如物体检测、光流、音频等)时,性能会进一步提高。然而,模态特定模块的增加会使这些模型在部署时变得不切实际。因此,本文的目标是在推理时仅使用RGB帧作为输入,保持这种多模态方法的性能。
关键思路:本文提出了一种基于多模态知识蒸馏的方法,以实现在推理时仅使用RGB帧作为输入的多模态方法的性能。在Epic-Kitchens和Something-Something数据集上进行的实验表明,通过多模态教师教授学生的方法比使用单模态或多模态方式训练的等效模型在准确性和校准性方面表现更好。此外,本文采用了一个合理的多模态知识蒸馏框架,以解决应用多模态知识蒸馏时出现的问题。最后,本文展示了所实现的计算复杂度降低,并证明了我们的方法在减少输入视图数量的同时仍保持较高的性能。
其他亮点:本文的亮点在于采用了基于多模态知识蒸馏的方法,以实现在推理时仅使用RGB帧作为输入的多模态方法的性能。实验结果表明,该方法在Epic-Kitchens和Something-Something数据集上的表现优于其他方法。此外,本文还提出了一个合理的多模态知识蒸馏框架,以解决应用多模态知识蒸馏时出现的问题。本文的工作值得进一步深入研究。
关于作者:Gorjan Radevski、Dusan Grujicic、Marie-Francine Moens、Matthew Blaschko和Tinne Tuytelaars是本文的主要作者。Gorjan Radevski、Dusan Grujicic、Marie-Francine Moens和Tinne Tuytelaars分别来自比利时鲁汶大学、马其顿大学、比利时鲁汶大学和比利时鲁汶大学。Matthew Blaschko则来自瑞士洛桑联邦理工学院。他们之前的代表作包括:Gorjan Radevski在多模态学习方面的研究,Dusan Grujicic在计算机视觉和机器学习方面的研究,Marie-Francine Moens在文本挖掘和自然语言处理方面的研究,Matthew Blaschko在深度学习和计算机视觉方面的研究,Tinne Tuytelaars在计算机视觉和机器学习方面的研究。
相关研究:近期其他相关的研究包括:
- "Self-Supervised Learning for Egocentric Action Recognition with Fewer Cameras",作者为Shanmin Pang、Yinghong Li、Jianping Shi,机构为中国科学院自动化研究所。
- "Egocentric Action Recognition with Latent Space Models",作者为Riccardo Satta、Ivan Bogun、Marco Melzi、Emanuele Rodolà、Samuele Salti,机构为意大利米兰理工大学。
- "Learning to Recognize Actions from Limited Data using Multi-modal Deep Learning"
The focal point of egocentric video understanding is modelling hand-object interactions. Standard models, e.g. CNNs or Vision Transformers, which receive RGB frames as input perform well. However, their performance improves further by employing additional input modalities that provide complementary cues, such as object detections, optical flow, audio, etc. The added complexity of the modality-specific modules, on the other hand, makes these models impractical for deployment. The goal of this work is to retain the performance of such a multimodal approach, while using only the RGB frames as input at inference time. We demonstrate that for egocentric action recognition on the Epic-Kitchens and the Something-Something datasets, students which are taught by multimodal teachers tend to be more accurate and better calibrated than architecturally equivalent models trained on ground truth labels in a unimodal or multimodal fashion. We further adopt a principled multimodal knowledge distillation framework, allowing us to deal with issues which occur when applying multimodal knowledge distillation in a naive manner. Lastly, we demonstrate the achieved reduction in computational complexity, and show that our approach maintains higher performance with the reduction of the number of input views.
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢