Large Vision-Language Models as Emotion Recognizers in Context Awareness

简介

本文探讨了利用大型视觉-语言模型（LVLMs）在三个范式下增强上下文感知情感识别（CAER）任务的潜力。以前的方法主要集中在设计复杂的架构以从图像中提取情感线索。然而，它们的知识仅限于特定的训练数据集，并可能反映标注者的主观情感偏见。此外，在现实应用中获取大量标记数据通常是具有挑战性的。在本文中，我们系统地探索了利用LVLMs的潜力，以增强CAER任务的三个范式：1）我们在两个CAER数据集上微调LVLMs，这是将大型模型转移到下游任务的最常见方法。2）我们设计了零样本和少样本模式，以评估LVLMs在数据受限或甚至完全看不见的情况下的性能。在这种情况下，提出了一个无需训练的框架，以充分利用LVLMs的In-Context Learning（ICL）能力。具体而言，我们开发了一种基于图像相似性的排名算法来检索示例；随后，将指令、检索到的示例和测试示例组合起来，馈送给LVLMs以获得相应的情感判断。3）为了利用LVLMs的丰富知识库，我们将Chain-of-Thought（CoT）纳入我们的框架中，以增强模型的推理能力并提供可解释的结果。广泛的实验和分析表明，LVLMs在不同范式下的CAER任务中取得了竞争性能。值得注意的是，在少样本设置中的优越性能表明，LVLMs在不需要大量训练的情况下完成特定任务的可行性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图探索利用大型视觉语言模型（LVLM）来解决上下文感知情感识别（CAER）任务的潜力，并从三个范式（fine-tune、零样本和少样本学习）进行评估。
关键思路

本文的关键思路是利用LVLMs来进行上下文感知情感识别任务。除了fine-tune外，还提出了零样本和少样本学习的方法，并将Chain-of-Thought（CoT）引入框架以增强模型的推理能力。
其它亮点

实验结果表明，LVLMs在不同范式下的CAER任务中表现出竞争力，并且在少样本设置下表现出卓越的性能，这表明LVLMs在不需要大量训练的情况下完成特定任务的可行性。
相关研究

最近的相关研究包括“Context-aware Emotion Recognition using a Multimodal Approach”、“A Survey on Context-Aware Emotion Recognition”等。

Large Vision-Language Models as Emotion Recognizers in Context Awareness

提问交流

提问交流