Facial Affective Behavior Analysis with Instruction Tuning

简介

面部情感行为分析（FABA）对于从图像中理解人类的心理状态至关重要。然而，传统方法主要采用模型来区分离散的情感类别，缺乏对复杂面部行为的细粒度和推理能力。多模态大语言模型（MLLMs）的出现已被证明在一般的视觉理解任务中取得了成功。然而，直接利用MLLMs进行FABA是具有挑战性的，因为数据集和基准测试的稀缺性，忽视了面部的先验知识和低训练效率。为了解决这些挑战，我们介绍了（i）一个针对两个FABA任务的指令遵循数据集，例如情感和动作单元识别，（ii）一个考虑识别和生成能力的新指标的基准FABA-Bench，以及（iii）一个新的MLLM“EmoLA”作为社区的强大基线。我们在数据集和基准测试上的举措揭示了面部情感行为的本质和理由，即细粒度的面部运动、可解释性和推理。此外，为了构建一个有效和高效的FABA MLLM，我们引入了一个面部先验专家模块，具有面部结构知识和低秩自适应模块，用于预训练的MLLM。我们在FABA-Bench和四个常用的FABA数据集上进行了大量实验。结果表明，所提出的面部先验专家可以提高性能，EmoLA在我们的FABA-Bench上取得了最佳结果。在常用的FABA数据集上，EmoLA与特定任务的最先进模型相媲美。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决面部情感行为分析（FABA）中的细粒度问题和推理能力不足的挑战，提出了一种有效且高效的FABA MLLM。
关键思路

论文的关键思路是引入面部先验知识和低秩自适应模块来提高预训练MLLM的性能，同时提出了一个新的FABA-Bench评估指标来考虑识别和生成能力。
其它亮点

论文提出了一个新的指标FABA-Bench来评估模型的识别和生成能力，并引入了一个面部先验专家模块和低秩自适应模块来提高MLLM的性能。此外，论文还提出了一个新的MLLM EmoLA作为强基线，并在多个数据集上进行了广泛实验。
相关研究

在相关研究中，一些文章如“Facial Emotion Recognition using Convolutional Neural Networks: State of the Art”和“Facial Action Unit Recognition with Multi-Task Learning”等也关注于面部情感行为分析。

Facial Affective Behavior Analysis with Instruction Tuning

提问交流

提问交流