Large Vision-Language Models as Emotion Recognizers in Context Awareness

2024年07月16日
  • 简介
    本文探讨了利用大型视觉-语言模型(LVLMs)在三个范式下增强上下文感知情感识别(CAER)任务的潜力。以前的方法主要集中在设计复杂的架构以从图像中提取情感线索。然而,它们的知识仅限于特定的训练数据集,并可能反映标注者的主观情感偏见。此外,在现实应用中获取大量标记数据通常是具有挑战性的。在本文中,我们系统地探索了利用LVLMs的潜力,以增强CAER任务的三个范式:1)我们在两个CAER数据集上微调LVLMs,这是将大型模型转移到下游任务的最常见方法。2)我们设计了零样本和少样本模式,以评估LVLMs在数据受限或甚至完全看不见的情况下的性能。在这种情况下,提出了一个无需训练的框架,以充分利用LVLMs的In-Context Learning(ICL)能力。具体而言,我们开发了一种基于图像相似性的排名算法来检索示例;随后,将指令、检索到的示例和测试示例组合起来,馈送给LVLMs以获得相应的情感判断。3)为了利用LVLMs的丰富知识库,我们将Chain-of-Thought(CoT)纳入我们的框架中,以增强模型的推理能力并提供可解释的结果。广泛的实验和分析表明,LVLMs在不同范式下的CAER任务中取得了竞争性能。值得注意的是,在少样本设置中的优越性能表明,LVLMs在不需要大量训练的情况下完成特定任务的可行性。
  • 作者讲解
  • 图表
  • 解决问题
    本文试图探索利用大型视觉语言模型(LVLM)来解决上下文感知情感识别(CAER)任务的潜力,并从三个范式(fine-tune、零样本和少样本学习)进行评估。
  • 关键思路
    本文的关键思路是利用LVLMs来进行上下文感知情感识别任务。除了fine-tune外,还提出了零样本和少样本学习的方法,并将Chain-of-Thought(CoT)引入框架以增强模型的推理能力。
  • 其它亮点
    实验结果表明,LVLMs在不同范式下的CAER任务中表现出竞争力,并且在少样本设置下表现出卓越的性能,这表明LVLMs在不需要大量训练的情况下完成特定任务的可行性。
  • 相关研究
    最近的相关研究包括“Context-aware Emotion Recognition using a Multimodal Approach”、“A Survey on Context-Aware Emotion Recognition”等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问