- 简介多模态大语言模型(MLLMs)在客观多模态感知任务上取得了显著的表现,但它们对主观、情感细腻的多模态内容的解释能力仍然未被充分探索。因此,它们有效理解和反应人类通过多模态媒体表达的复杂情感的能力受到了阻碍。为了弥补这一差距,我们引入了EmoBench,这是第一个专门设计评估MLLMs在五个流行情感任务上的情感能力的全面基准,使用了一个包含287k图像和视频的多样化数据集,配对相应的文本说明。同时,我们提出了EmoLLM,这是一种新颖的多模态情感理解模型,结合了两个核心技术。1)多角度视觉投影,它从多个角度捕捉视觉数据中的多样化情感线索。2)EmoPrompt,它引导MLLMs朝着正确的方向推理情感。实验结果表明,EmoLLM显著提高了多模态情感理解的性能,在EmoBench上的多个基础模型上平均提高了12.1%。我们的工作促进了MLLMs的发展,通过促进对复杂人类情感的更深入和更细致的理解,为开发具有广泛应用的人工情感智能能力铺平了道路,例如人机交互、心理健康支持和有同情心的AI系统。代码、数据和模型将会发布。
-
- 图表
- 解决问题EmoBench是第一个专门设计用于评估多模态语言模型(MLLMs)在情感能力方面的综合基准测试。该论文旨在解决MLLMs在解释主观、情感细腻的多模态内容方面的能力不足的问题。
- 关键思路论文提出了EmoLLM模型,该模型结合了两种核心技术:多角度视觉投影和EmoPrompt。前者从多个角度捕捉视觉数据中的不同情感线索,后者引导MLLMs朝着正确的方向推理情感。实验结果表明,EmoLLM显著提高了多模态情感理解的性能。
- 其它亮点论文使用了一个包含287k图像和视频的多样化数据集,并针对五个流行的情感任务进行了评估。实验结果表明,EmoLLM平均提高了12.1%的性能。此外,论文还承诺将发布代码、数据和模型。
- 在情感理解的领域,最近的相关研究包括:1)基于自监督学习的情感分类方法;2)结合知识图谱的情感推理方法;3)使用迁移学习和图像增强技术来提高情感理解的性能。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流