Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning

2024年06月17日
  • 简介
    准确的情感感知对于各种应用至关重要,包括人机交互、教育和咨询。然而,传统的单模态方法往往无法捕捉到真实世界情感表达的复杂性,这些表达本质上是多模态的。此外,现有的多模态大语言模型(MLLMs)在集成音频和识别微妙的面部微表情方面面临挑战。为了解决这个问题,我们介绍了MERR数据集,其中包含28,618个粗粒度和4,487个细粒度的注释样本,涵盖了不同的情感类别。这个数据集使模型能够从各种情境中学习,并推广到真实世界的应用中。此外,我们提出了Emotion-LLaMA模型,它通过情感特定的编码器无缝地集成音频、视觉和文本输入。通过将特征对齐到共享空间并使用经过修改的LLaMA模型进行指令调整,Emotion-LLaMA显著增强了情感识别和推理能力。广泛的评估显示,Emotion-LLaMA在Clue Overlap(7.83)和Label Overlap(6.25)上的EMER得分最高,在MER2023挑战赛上的F1得分为0.9036,在DFEW数据集的零样本评估中,UAR(45.59)和WAR(59.37)最高,优于其他MLLMs。
  • 图表
  • 解决问题
    本论文旨在解决情感识别中的多模态问题,提出了一个新的数据集和模型,以提高情感识别的准确性和推理能力。
  • 关键思路
    本论文提出了Emotion-LLaMA模型,通过情感特定的编码器将音频、视觉和文本输入无缝集成,并使用修改后的LLaMA模型进行特征对齐和指导调整,从而显著提高情感识别和推理能力。
  • 其它亮点
    本论文提出了MERR数据集,包含28,618个粗粒度和4,487个细粒度的情感类别标注样本,以帮助模型从多样的情境中学习并推广到实际应用。在多个数据集上进行了广泛的评估,Emotion-LLaMA模型在情感识别和推理方面表现出色,超过了其他现有的多模态大型语言模型。
  • 相关研究
    在情感识别的相关研究中,最近的一些论文包括:'A Survey of Multimodal Sentiment Analysis'、'Multimodal Sentiment Analysis: Addressing Key Issues and Setting Up Future Directions'、'Multimodal Emotion Recognition: A Survey'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论