InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection

简介

社交媒体上使用文本图像组合表达的讽刺语气的普遍存在，给情感分析和意图挖掘带来了重大挑战。目前的多模态讽刺检测方法已被证明难以应对虚假线索带来的偏见，导致对文本和图像之间复杂互动的表面理解。为了解决这些问题，我们提出了InterCLIP-MEP，这是一个强大的多模态讽刺检测框架。InterCLIP-MEP引入了CLIP的改进变体，即交互式CLIP（InterCLIP），作为骨干，通过在每个编码器中嵌入跨模态信息来增强样本表示。此外，设计了一种新的训练策略，以适应Memory-Enhanced Predictor（MEP）。MEP使用动态双通道内存存储测试样本的有价值的历史知识，然后利用这个内存作为非参数分类器来推导最终的预测结果。通过更有效地使用InterCLIP对文本图像交互进行编码并整合MEP，InterCLIP-MEP提供了更强大的多模态讽刺识别。实验表明，InterCLIP-MEP在MMSD2.0基准测试中实现了最先进的性能。代码和数据可在https://github.com/CoderChen01/InterCLIP-MEP上获得。
图表
解决问题

本文旨在解决社交媒体中多模态反讽检测的问题，通过提出InterCLIP-MEP框架来提高检测的鲁棒性。
关键思路

InterCLIP-MEP框架采用交互式CLIP（InterCLIP）和内存增强预测器（MEP）相结合的方式，提高了样本表示的效果，同时通过动态双通道内存存储历史知识来进行非参数分类器的预测。
其它亮点

实验结果表明，InterCLIP-MEP在MMSD2.0基准测试中取得了最先进的性能。该论文提供了代码和数据，并且值得进一步研究。
相关研究

最近的相关研究包括：1. 'Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion of Text and Image Features' 2. 'Sarcasm Detection in Multi-Modal Social Media Data using Multimodal Fusion and Deep Learning'

InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection

评论