MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition

解决问题:本文探讨了在缺少某些模态数据的情况下,系统如何进行多模态的行为识别,称之为“多模态泛化”(MMG)问题。该问题包括两种新颖的场景,即缺失模态泛化和交叉模态零样本泛化,旨在支持实际应用中的安全性和效率考虑。

关键思路:本文构建了一个新的数据集MMG-Ego4D,包含视频、音频和惯性运动传感器(IMU)等多种模态数据,用于研究MMG问题。在此基础上,本文提出了一种新的融合模块,采用模态丢弃训练、对比度对齐训练和新颖的交叉模态原型损失等方法,以提高模型的泛化能力。

其他亮点:本文提出的MMG问题和数据集MMG-Ego4D为多模态泛化问题的研究提供了新的思路和工具。作者还通过实验验证了所提出方法的有效性,并提供了开源代码和数据集,为相关研究提供了参考和基础。

关于作者:本文的主要作者包括Xinyu Gong、Sreyas Mohan、Naina Dhingra、Jean-Charles Bazin、Yilei Li和Zhangyang Wang等人,他们来自于Facebook AI Research、Georgia Institute of Technology和University of Illinois at Urbana-Champaign等机构。其中,Xinyu Gong等人的代表作包括“Deep Multimodal Speaker Diarization”和“Deep Reinforcement Learning for Visual Object Tracking in Videos”。

相关研究:与本文相关的研究包括“Few-Shot Egocentric Action Recognition with Self-Supervised Spatio-Temporal Learning”(Y. Li等人)、“Multimodal Few-Shot Learning for Egocentric Action Recognition”(J. Zhang等人)和“Multi-Modal Egocentric Activity Recognition with Temporally Weighted Metric Learning”(S. Ghosh等人)等。

论文摘要:本文研究了一种新颖的问题,称为“多模态泛化”(MMG),它旨在研究在某些模态的数据有限甚至完全缺失的情况下系统如何进行泛化。我们在标准监督动作识别和更具挑战性的少样本学习新动作类别的情况下深入研究了MMG。MMG包括两种新颖的场景,旨在支持现实世界应用中的安全性和效率考虑:(1)缺失模态泛化,其中在训练时存在的某些模态在推断时缺失;(2)跨模态零样本泛化,其中在推断时和训练时存在的模态不重叠。为了实现这一调查,我们构建了一个新的数据集MMG-Ego4D,其中包含视频、音频和惯性运动传感器(IMU)模态的数据点。我们的数据集源自Ego4D数据集,但经过人类专家的处理和彻底重新注释,以便于研究MMG问题。我们在MMG-Ego4D上评估了各种模型,并提出了具有改进泛化能力的新方法。特别地,我们引入了一种新的融合模块,采用模态丢失训练、基于对比的对齐训练和一种新的跨模态原型损失,以获得更好的少样本性能。我们希望这项研究将成为多模态泛化问题的基准,并指导未来的研究。基准和代码将可在https://github.com/facebookresearch/MMG_Ego4D上获取。

内容中包含的图片若涉及版权问题,请及时与我们联系删除