EmoLLM: Multimodal Emotional Understanding Meets Large Language Models

简介

多模态大型语言模型（MLLMs）在客观的多模态感知任务上取得了显著的表现，但它们对主观、情感细腻的多模态内容的解释能力仍然未被充分探索。因此，它们无法有效地理解和反应人类通过多模态媒体表达的复杂情感。为了填补这一差距，我们介绍了 EmoBench，这是第一个专门设计用于评估 MLLMs 在五个流行情感任务中的情感能力的全面基准，使用了一个包含 287k 张图像和视频以及相应文本指令的多样化数据集。同时，我们提出了 EmoLLM，这是一种新型的多模态情感理解模型，结合了两种核心技术。1）多角度视觉投影，它从多个角度捕捉视觉数据中的多样化情感线索。2）EmoPrompt，它引导 MLLMs 正确地推理情感。实验结果表明，EmoLLM 显著提高了多模态情感理解性能，在 EmoBench 上多个基础模型上的平均改进率为 12.1%。我们的工作促进了 MLLMs 的进步，通过促进对复杂人类情感的更深入和更细致的理解，为开发具有广泛应用的人工情感智能能力，如人机交互、心理健康支持和有同情心的 AI 系统铺平了道路。代码、数据和模型将会发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探索多模态大语言模型（MLLMs）在主观、情感细腻的多模态内容理解方面的能力，并提出了EmoBench作为评估标准。
关键思路

EmoLLM是一种新颖的多模态情感理解模型，结合了多角度视觉投影和EmoPrompt技术，能够有效地理解情感细节。
其它亮点

论文提出了EmoBench，这是第一个专门评估MLLM情感能力的综合基准。实验结果表明，EmoLLM的表现显著优于其他基准模型，平均提高了12.1％。论文还开源了代码、数据和模型。
相关研究

在情感分析领域，最近的相关研究包括“Multimodal Sentiment Analysis: Addressing Key Issues and Setting Up Baselines”和“Multimodal Emotion Recognition with Multiscale Convolutional Neural Networks”。

EmoLLM: Multimodal Emotional Understanding Meets Large Language Models

提问交流

提问交流