EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model

2024年05月01日
  • 简介
    情感人工智能是计算机理解人类情感状态的能力。现有的研究已经取得了很好的进展,但仍存在两个问题需要解决:1)以前的研究更关注短序列视频情感分析,而忽略了长序列视频。然而,短序列视频中的情感只反映瞬间情感,可能是故意引导或隐藏的。相比之下,长序列视频可以揭示真实情感;2)以前的研究通常利用各种信号,如面部、语音甚至敏感的生物信号(例如心电图)。然而,由于对隐私的需求不断增加,开发不依赖敏感信号的情感人工智能变得越来越重要。为了解决上述限制,本文构建了一个名为EALD的长序列和去身份化视频情感分析数据集,通过收集和处理运动员赛后采访的序列来实现。除了为每个视频提供整体情感状态的注释外,我们还为每个运动员提供了非面部身体语言(NFBL)注释。NFBL是一种内在驱动的情感表达,可以作为理解情感状态的去身份化线索。此外,我们还提供了一个简单但有效的基线用于进一步研究。更准确地说,我们评估了利用去身份化信号(例如视觉、语音和NFBL)的多模态大型语言模型(MLLMs)来执行情感分析。我们的实验结果表明:1)MLLMs即使在零-shot情况下也能实现与监督单模型相当甚至更好的性能;2)NFBL是长序列情感分析中的重要线索。EALD将在开源平台上提供。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决情感分析中长序列视频和隐私保护方面的问题。具体而言,如何在不依赖敏感信号的情况下,分析运动员赛后采访视频中的情感状态?
  • 关键思路
    文章提出了一种基于多模态大型语言模型(MLLMs)的解决方案,结合视觉、语音和非面部身体语言信号(NFBLs)进行情感分析。NFBLs是一种内在驱动的情感表达方式,可以作为理解情感状态的无身份线索。实验结果表明,在长序列情感分析中,NFBLs是一个重要的线索,而MLLMs可以在零样本情况下实现可比甚至更好的性能。
  • 其它亮点
    本文提出了一个新的数据集EALD,用于情感分析中长序列和去身份化视频的研究。该数据集不仅提供了每个视频的整体情感状态注释,还提供了每个运动员的NFBL注释。此外,本文提供了一个简单而有效的基线模型。研究表明,MLLMs可以比监督单模型实现可比甚至更好的性能,NFBLs是长序列情感分析中的重要线索。EALD数据集将在开源平台上提供。
  • 相关研究
    在情感分析领域,已经有很多相关的研究。例如,基于面部表情的情感分析,基于语音的情感分析,基于生理信号的情感分析等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问