- 简介社交媒体中使用文本-图像组合表达的讽刺语气的普遍存在,给情感分析和意图挖掘带来了重大挑战。目前的多模态讽刺检测方法已被证明难以应对来自虚假线索的偏见,导致对文本和图像之间复杂互动的表面理解。为了解决这些问题,我们提出了InterCLIP-MEP,这是一个用于多模态讽刺检测的强大框架。InterCLIP-MEP引入了CLIP的改进版本Interactive CLIP(InterCLIP)作为骨干,通过在每个编码器中嵌入跨模态信息来增强样本表示。此外,还设计了一种新的训练策略,以适应Memory-Enhanced Predictor(MEP)。MEP使用动态双通道存储有关测试样本的有价值的历史知识,然后利用这个存储器作为非参数分类器来推导最终的预测结果。通过更有效地使用InterCLIP来编码文本-图像交互并结合MEP,InterCLIP-MEP提供了更强大的多模态讽刺识别。实验表明,InterCLIP-MEP在MMSD2.0基准测试中实现了最先进的性能。代码和数据可在[https://github.com/CoderChen01/InterCLIP-MEP](https://github.com/CoderChen01/InterCLIP-MEP)上获得。
- 图表
- 解决问题论文旨在解决社交媒体中的多模态讽刺识别问题,当前的方法存在偏差和表面理解的问题。
- 关键思路论文提出了InterCLIP-MEP框架,使用改进的CLIP模型和Memory-Enhanced Predictor(MEP)进行多模态讽刺识别。
- 其它亮点InterCLIP-MEP框架在MMSD2.0基准测试中实现了最先进的性能,并提供了开源代码和数据集。该框架使用动态双通道内存,存储测试样本的历史知识,并将其作为非参数分类器来推导最终预测。
- 最近的相关研究包括:Multi-Modal Sarcasm Detection with Hierarchical Fusion of Audio, Textual, and Visual Features;A Multi-Modal Approach to Sarcasm Detection in Online Communication;Sarcasm Detection on Twitter: A Behavioral and Language Model Approach。
沙发等你来抢
去评论
评论
沙发等你来抢