- 简介社交媒体上使用文本图像组合表达的讽刺语气的普遍存在,给情感分析和意图挖掘带来了重大挑战。目前的多模态讽刺检测方法已被证明难以应对虚假线索带来的偏见,导致对文本和图像之间复杂互动的表面理解。为了解决这些问题,我们提出了InterCLIP-MEP,这是一个强大的多模态讽刺检测框架。InterCLIP-MEP引入了CLIP的改进变体,即交互式CLIP(InterCLIP),作为骨干,通过在每个编码器中嵌入跨模态信息来增强样本表示。此外,设计了一种新的训练策略,以适应Memory-Enhanced Predictor(MEP)。MEP使用动态双通道内存存储测试样本的有价值的历史知识,然后利用这个内存作为非参数分类器来推导最终的预测结果。通过更有效地使用InterCLIP对文本图像交互进行编码并整合MEP,InterCLIP-MEP提供了更强大的多模态讽刺识别。实验表明,InterCLIP-MEP在MMSD2.0基准测试中实现了最先进的性能。代码和数据可在https://github.com/CoderChen01/InterCLIP-MEP上获得。
- 图表
- 解决问题本文旨在解决社交媒体中多模态反讽检测的问题,通过提出InterCLIP-MEP框架来提高检测的鲁棒性。
- 关键思路InterCLIP-MEP框架采用交互式CLIP(InterCLIP)和内存增强预测器(MEP)相结合的方式,提高了样本表示的效果,同时通过动态双通道内存存储历史知识来进行非参数分类器的预测。
- 其它亮点实验结果表明,InterCLIP-MEP在MMSD2.0基准测试中取得了最先进的性能。该论文提供了代码和数据,并且值得进一步研究。
- 最近的相关研究包括:1. 'Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion of Text and Image Features' 2. 'Sarcasm Detection in Multi-Modal Social Media Data using Multimodal Fusion and Deep Learning'
沙发等你来抢
去评论
评论
沙发等你来抢