CofiPara: A Coarse-to-fine Paradigm for Multimodal Sarcasm Target Identification with Large Multimodal Models

向作者提问

NEW

简介

社交媒体充斥着多模态的讽刺，由于文本和图像模态中隐含的不一致性并不直接明显，因此识别讽刺目标尤其具有挑战性。目前的多模态讽刺目标识别（MSTI）方法主要侧重于表面指标的端到端方式，忽略了对通过文本和图像传达的多模态讽刺的微妙理解。本文提出了一个多才多艺的MSTI框架，采用粗到细的范式，通过推理和预训练知识增强讽刺的可解释性。受到大型多模态模型（LMMs）在多模态推理方面的强大能力的启发，我们首先利用LMMs生成竞争性的理由，对小型语言模型进行更粗粒度的多模态讽刺检测的预训练。然后，我们提出微调模型，以进行更细粒度的讽刺目标识别。因此，我们的框架能够熟练地揭示多模态讽刺中的复杂目标，并减轻LMMs固有的潜在噪声所带来的负面影响。实验结果表明，我们的模型远远优于现有的MSTI方法，并显著展示了解释讽刺的能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文试图解决多模态讽刺目标识别的问题，尤其是在文本和图像模态中都存在隐含的不一致性，难以直接识别的情况下。现有的多模态讽刺目标识别方法主要集中于表面指标，忽视了对于文本和图像中多模态讽刺所传达的微妙理解。
关键思路

本论文提出了一种多功能的多模态讽刺目标识别框架，采用了粗到细的范式，通过推理和预训练知识增强讽刺可解释性。首先利用大型多模态模型产生竞争性的理由，对多模态讽刺检测的小型语言模型进行更粗略的预训练。然后，提出对模型进行微调以进行更细粒度的讽刺目标识别。
其它亮点

本论文的亮点在于提出了一种新的多模态讽刺目标识别框架，采用了粗到细的范式，结合推理和预训练知识，有效地解决了多模态讽刺目标识别的难题。实验结果表明，该模型的性能远优于现有的多模态讽刺目标识别方法，并且在解释讽刺方面表现出色。
相关研究

最近的相关研究包括：1.《Visual Sarcasm Target Identification with Multi-Modal Fusion》；2.《Multimodal Sarcasm Detection in Social Media with Semantic Alignment》；3.《Multimodal Sarcasm Detection in Twitter with Hierarchical Fusion of Textual and Visual Features》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问