InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection

2024年06月24日
  • 简介
    社交媒体上使用文本图像组合表达的讽刺语气的普遍存在,给情感分析和意图挖掘带来了重大挑战。目前的多模态讽刺检测方法已被证明难以应对虚假线索带来的偏见,导致对文本和图像之间复杂互动的表面理解。为了解决这些问题,我们提出了InterCLIP-MEP,这是一个强大的多模态讽刺检测框架。InterCLIP-MEP引入了CLIP的改进变体,即交互式CLIP(InterCLIP),作为骨干,通过在每个编码器中嵌入跨模态信息来增强样本表示。此外,设计了一种新的训练策略,以适应Memory-Enhanced Predictor(MEP)。MEP使用动态双通道内存存储测试样本的有价值的历史知识,然后利用这个内存作为非参数分类器来推导最终的预测结果。通过更有效地使用InterCLIP对文本图像交互进行编码并整合MEP,InterCLIP-MEP提供了更强大的多模态讽刺识别。实验表明,InterCLIP-MEP在MMSD2.0基准测试中实现了最先进的性能。代码和数据可在https://github.com/CoderChen01/InterCLIP-MEP上获得。
  • 图表
  • 解决问题
    本文旨在解决社交媒体中多模态反讽检测的问题,通过提出InterCLIP-MEP框架来提高检测的鲁棒性。
  • 关键思路
    InterCLIP-MEP框架采用交互式CLIP(InterCLIP)和内存增强预测器(MEP)相结合的方式,提高了样本表示的效果,同时通过动态双通道内存存储历史知识来进行非参数分类器的预测。
  • 其它亮点
    实验结果表明,InterCLIP-MEP在MMSD2.0基准测试中取得了最先进的性能。该论文提供了代码和数据,并且值得进一步研究。
  • 相关研究
    最近的相关研究包括:1. 'Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion of Text and Image Features' 2. 'Sarcasm Detection in Multi-Modal Social Media Data using Multimodal Fusion and Deep Learning'
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论