- 简介本文开发了小型视觉语言模型,用于理解视觉艺术,旨在识别其情感类别并用自然语言解释这种预测。虽然小型模型在计算效率上具有优势,但与大型模型相比,其容量要大大受限。为了打破这种权衡,本文通过情感建模和输入输出特征对齐构建了一个小型情感视觉语言模型(SEVLM)。一方面,基于由心理学专家注释的价-振荡-支配(VAD)知识,我们引入并融合通过VAD字典和VAD头导出的情感特征,以对齐预测情感解释和真实情感的VAD向量。与仅使用传统文本嵌入相比,这使得视觉语言模型更好地理解和生成情感文本。另一方面,我们设计了一个对比头,将图像、其情感类别和解释的嵌入拉近,以对齐模型的输出和输入。在两个公共情感解释数据集上,我们展示了所提出的技术可以持续改善基线SEVLM的视觉艺术理解性能。重要的是,所提出的模型可以在单个RTX 2080 Ti上进行训练和评估,同时表现出非常强的性能:它不仅在性能上优于最先进的小型模型,而且在微调和GPT4(V)后与LLaVA 7B相比也具有竞争力。
- 图表
- 解决问题本论文旨在开发小型视觉语言模型,以理解视觉艺术,并识别其情感类别并用自然语言解释此预测。
- 关键思路通过情感建模和输入输出特征对齐,构建了小型情感视觉语言模型(SEVLM),通过引入基于VAD字典和VAD头导出的情感特征来对齐预测的情感解释和基本事实的VAD向量,并设计对比头来拉近图像、情感类别和解释的嵌入,从而对齐模型的输出和输入。
- 其它亮点论文在两个公共情感解释数据集上展示了所提出技术的性能提升,而且该模型在单个RTX 2080 Ti上训练和评估,表现非常强大,不仅优于最先进的小型模型,而且在微调和GPT4(V)后与LLaVA 7B竞争力相当。
- 最近的相关研究包括:《Image-Text Emotion Compositionality: A Unified Framework for Emotion Recognition, Explanation and Synthesis》、《Multimodal Emotion Recognition from Speech and Text Using Deep Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢