- 简介深度多模态语义理解已经引起人工智能领域越来越多的关注,这种理解超越了浅层的内容关系挖掘。收集和注释高质量的多模态数据的挑战凸显了少样本学习的重要性。在本文中,我们关注两个关键任务:少样本多模态讽刺检测(MSD)和多模态情感分析(MSA)。为了解决这些问题,我们提出了一种新颖的基于统一视觉语言模型(VLM)的多模态软提示框架MoPE-BAF,其中包括三个软提示专家:文本提示和图像提示提取模态特定的特征以丰富单模态表示,统一提示则协助多模态交互。此外,我们将Transformer层重新组织为几个块,并引入跨模态提示注意力来平滑从单模态表示到多模态融合的过渡。在少样本设置下的MSD和MSA数据集上,我们提出的模型不仅仅超过了拥有8.2B参数的InstructBLIP模型,而且仅使用2%的参数(150M)就表现出色,同时还明显优于VLMs或任务特定方法中其他广泛使用的提示方法。
- 图表
- 解决问题该论文旨在解决多模态语义理解中的两个关键任务:少样本多模态讽刺检测和多模态情感分析。
- 关键思路该论文提出了一种新的多模态软提示框架MoPE-BAF,基于统一的视觉语言模型(VLM),其中包括三个软提示专家和块感知提示融合,可以有效地提高多模态任务的性能。
- 其它亮点该论文在少样本情况下使用MSD和MSA数据集进行了实验,结果表明MoPE-BAF模型不仅在参数数量上远远优于8.2B模型InstructBLIP,而且在VLM或任务特定方法上也显著优于其他广泛使用的提示方法。
- 最近的相关研究包括:1.《Few-shot Learning for Multimodal Sentiment Analysis》;2.《Multi-modal Sarcasm Detection in Twitter with Hierarchical Fusion of Features》;3.《Multimodal Sentiment Analysis: A Survey》等。
沙发等你来抢
去评论
评论
沙发等你来抢