Affective Behaviour Analysis via Integrating Multi-Modal Knowledge

向作者提问

NEW

简介

情感行为分析旨在使技术具备情感智能，创造一个设备能像人类一样理解和反应我们情感的世界。为了全面评估情感行为分析技术在自然环境中的真实性和适用性，第六届野外情感行为分析（ABAW）竞赛利用Aff-Wild2、Hume-Vidmimic2和C-EXPR-DB数据集设置了五个竞争赛道，即情感价值-唤醒（VA）估计、表情（EXPR）识别、动作单元（AU）检测、复合表情（CE）识别和情感模仿强度（EMI）估计。本文介绍了我们针对这五个任务的方法设计。具体来说，我们的设计主要包括三个方面：1）利用基于transformer的特征融合模块充分整合音频信号、视觉图像和转录提供的情感信息，为下游任务提供高质量的表情特征。2）为了获得高质量的面部特征表示，我们采用Masked-Auto Encoder作为视觉特征提取模型，并用我们的面部数据集进行微调。3）考虑到视频收集场景的复杂性，我们根据场景特征进行更详细的数据集划分，并为每个场景训练分类器。广泛的实验表明了我们设计的优越性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决情感行为分析中的一些关键问题，如情感识别、面部表情识别等，并验证这些技术在自然环境中的适用性和真实性。
关键思路

本论文的关键思路是采用基于transformer的特征融合模块，将音频、图像和转录提供的情感信息完全整合，为下游任务提供高质量的表情特征。同时，使用Masked-Auto Encoder作为视觉特征提取模型，通过对面部数据集的微调来实现高质量的面部特征表示。此外，针对视频采集场景的复杂性，本文基于场景特征进行更详细的数据集划分，并为每个场景训练分类器。
其它亮点

本文的实验设计十分精细，使用了多个数据集，并开源了相关代码。同时，本文的方法在多个任务上均取得了优异的性能表现，具有很高的应用价值和研究意义。
相关研究

该领域的相关研究包括：1）Zeng et al.的《JointVAE: Learning Disentangled Joint Continuous and Discrete Representations》；2）Kossaifi et al.的《Affective Computing in-the-wild: A Survey and a New Database》；3）Liu et al.的《Deep Learning for Extreme Multi-label Text Classification》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问