- 简介多模态大型语言模型(MLLMs)在客观的多模态感知任务上取得了显著的表现,但它们对主观、情感细腻的多模态内容的解释能力仍然未被充分探索。因此,它们无法有效地理解和反应人类通过多模态媒体表达的复杂情感。为了填补这一差距,我们介绍了 EmoBench,这是第一个专门设计用于评估 MLLMs 在五个流行情感任务中的情感能力的全面基准,使用了一个包含 287k 张图像和视频以及相应文本指令的多样化数据集。同时,我们提出了 EmoLLM,这是一种新型的多模态情感理解模型,结合了两种核心技术。1)多角度视觉投影,它从多个角度捕捉视觉数据中的多样化情感线索。2)EmoPrompt,它引导 MLLMs 正确地推理情感。实验结果表明,EmoLLM 显著提高了多模态情感理解性能,在 EmoBench 上多个基础模型上的平均改进率为 12.1%。我们的工作促进了 MLLMs 的进步,通过促进对复杂人类情感的更深入和更细致的理解,为开发具有广泛应用的人工情感智能能力,如人机交互、心理健康支持和有同情心的 AI 系统铺平了道路。代码、数据和模型将会发布。
-
- 图表
- 解决问题本论文旨在探索多模态大语言模型(MLLMs)在主观、情感细腻的多模态内容理解方面的能力,并提出了EmoBench作为评估标准。
- 关键思路EmoLLM是一种新颖的多模态情感理解模型,结合了多角度视觉投影和EmoPrompt技术,能够有效地理解情感细节。
- 其它亮点论文提出了EmoBench,这是第一个专门评估MLLM情感能力的综合基准。实验结果表明,EmoLLM的表现显著优于其他基准模型,平均提高了12.1%。论文还开源了代码、数据和模型。
- 在情感分析领域,最近的相关研究包括“Multimodal Sentiment Analysis: Addressing Key Issues and Setting Up Baselines”和“Multimodal Emotion Recognition with Multiscale Convolutional Neural Networks”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流