- 简介面部情感行为分析(FABA)对于从图像中理解人类的心理状态至关重要。然而,传统方法主要采用模型来区分离散的情感类别,缺乏对复杂面部行为的细粒度和推理能力。多模态大语言模型(MLLMs)的出现已被证明在一般的视觉理解任务中取得了成功。然而,直接利用MLLMs进行FABA是具有挑战性的,因为数据集和基准测试的稀缺性,忽视了面部的先验知识和低训练效率。为了解决这些挑战,我们介绍了(i)一个针对两个FABA任务的指令遵循数据集,例如情感和动作单元识别,(ii)一个考虑识别和生成能力的新指标的基准FABA-Bench,以及(iii)一个新的MLLM“EmoLA”作为社区的强大基线。我们在数据集和基准测试上的举措揭示了面部情感行为的本质和理由,即细粒度的面部运动、可解释性和推理。此外,为了构建一个有效和高效的FABA MLLM,我们引入了一个面部先验专家模块,具有面部结构知识和低秩自适应模块,用于预训练的MLLM。我们在FABA-Bench和四个常用的FABA数据集上进行了大量实验。结果表明,所提出的面部先验专家可以提高性能,EmoLA在我们的FABA-Bench上取得了最佳结果。在常用的FABA数据集上,EmoLA与特定任务的最先进模型相媲美。
- 图表
- 解决问题本论文旨在解决面部情感行为分析(FABA)中的细粒度问题和推理能力不足的挑战,提出了一种有效且高效的FABA MLLM。
- 关键思路论文的关键思路是引入面部先验知识和低秩自适应模块来提高预训练MLLM的性能,同时提出了一个新的FABA-Bench评估指标来考虑识别和生成能力。
- 其它亮点论文提出了一个新的指标FABA-Bench来评估模型的识别和生成能力,并引入了一个面部先验专家模块和低秩自适应模块来提高MLLM的性能。此外,论文还提出了一个新的MLLM EmoLA作为强基线,并在多个数据集上进行了广泛实验。
- 在相关研究中,一些文章如“Facial Emotion Recognition using Convolutional Neural Networks: State of the Art”和“Facial Action Unit Recognition with Multi-Task Learning”等也关注于面部情感行为分析。
沙发等你来抢
去评论
评论
沙发等你来抢