- 简介社交媒体中充斥着多模式的讽刺,由于文本和图像模式中隐含的不一致性不直接明显,因此识别讽刺目标尤其具有挑战性。目前的多模式讽刺目标识别(MSTI)方法主要集中在端到端的表面指标上,忽视了对通过文本和图像传达的多模式讽刺的微妙理解。本文提出了一个多功能MSTI框架,采用粗到细的范式,通过推理和预训练知识增强讽刺的可解释性。受到大型多模式模型(LMMs)在多模式推理方面的强大能力的启发,我们首先使用LMMs生成竞争性的理由,为小型语言模型在多模式讽刺检测方面进行粗粒度的预训练。然后,我们提出微调模型以进行更精细的讽刺目标识别。因此,我们的框架能够熟练地揭示多模式讽刺中的复杂目标,并减轻LMMs内在噪声所带来的负面影响。实验结果表明,我们的模型远远优于现有的MSTI方法,并且在解读讽刺方面表现出明显的可解释性。
- 图表
- 解决问题本论文旨在提出一种多模态讽刺目标识别(MSTI)框架,以应对社交媒体上隐晦的多模态讽刺的挑战。当前多模态讽刺目标识别的方法主要集中在表面指标上,缺乏对文本和图像模态中多模态讽刺的细微理解。
- 关键思路本论文提出了一种粗到细的多模态讽刺目标识别框架,通过推理和预训练知识增强讽刺可解释性。首先利用大型多模态模型(LMMs)生成竞争性的理由,对小型语言模型进行更粗略的多模态讽刺检测的预训练。然后对模型进行微调,以进行更细致的讽刺目标识别。
- 其它亮点实验结果表明,该模型远远优于现有的MSTI方法,并显著展示了解释讽刺的能力。论文还使用了多个数据集进行了实验,并提供了开源代码。
- 在最近的相关研究中,也有一些关于多模态讽刺目标识别的研究,如《Multimodal Sarcasm Detection in Social Media: A Survey》和《Multimodal Sarcasm Detection in Twitter with Hierarchical Fusion of Text and Image Features》。
沙发等你来抢
去评论
评论
沙发等你来抢