EmoLLM: Multimodal Emotional Understanding Meets Large Language Models

2024年06月24日
  • 简介
    多模态大型语言模型(MLLMs)在客观的多模态感知任务上取得了显著的表现,但它们对主观、情感细腻的多模态内容的解释能力仍然未被充分探索。因此,它们无法有效地理解和反应人类通过多模态媒体表达的复杂情感。为了填补这一差距,我们介绍了 EmoBench,这是第一个专门设计用于评估 MLLMs 在五个流行情感任务中的情感能力的全面基准,使用了一个包含 287k 张图像和视频以及相应文本指令的多样化数据集。同时,我们提出了 EmoLLM,这是一种新型的多模态情感理解模型,结合了两种核心技术。1)多角度视觉投影,它从多个角度捕捉视觉数据中的多样化情感线索。2)EmoPrompt,它引导 MLLMs 正确地推理情感。实验结果表明,EmoLLM 显著提高了多模态情感理解性能,在 EmoBench 上多个基础模型上的平均改进率为 12.1%。我们的工作促进了 MLLMs 的进步,通过促进对复杂人类情感的更深入和更细致的理解,为开发具有广泛应用的人工情感智能能力,如人机交互、心理健康支持和有同情心的 AI 系统铺平了道路。代码、数据和模型将会发布。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在探索多模态大语言模型(MLLMs)在主观、情感细腻的多模态内容理解方面的能力,并提出了EmoBench作为评估标准。
  • 关键思路
    EmoLLM是一种新颖的多模态情感理解模型,结合了多角度视觉投影和EmoPrompt技术,能够有效地理解情感细节。
  • 其它亮点
    论文提出了EmoBench,这是第一个专门评估MLLM情感能力的综合基准。实验结果表明,EmoLLM的表现显著优于其他基准模型,平均提高了12.1%。论文还开源了代码、数据和模型。
  • 相关研究
    在情感分析领域,最近的相关研究包括“Multimodal Sentiment Analysis: Addressing Key Issues and Setting Up Baselines”和“Multimodal Emotion Recognition with Multiscale Convolutional Neural Networks”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问