SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection

2024年03月05日
  • 简介
    虚假信息是一个普遍存在的社会问题,因为它可能带来高风险。其中,将真实图像与虚假文本结合的脱离上下文(OOC)虚假信息是误导受众最简单、最有效的方法之一。目前的方法主要关注评估图像和文本的一致性,但缺乏令人信服的解释来证明它们的判断,这对于揭穿虚假信息至关重要。虽然多模态大语言模型(MLLMs)拥有丰富的知识和天生的视觉推理和解释生成能力,但它们仍然缺乏理解和发现微妙的跨模态差异的复杂性。本文介绍了一种新型的多模态大语言模型SNIFFER,专门用于检测和解释OOC虚假信息。SNIFFER在InstructBLIP上采用两阶段指令调整。第一阶段通过将通用对象的概念对齐到新闻领域实体来优化模型的概念对齐,第二阶段利用仅有语言的GPT-4生成的OOC特定指令数据来微调模型的区分能力。SNIFFER不仅利用外部工具和检索来检测文本和图像之间的不一致性,还利用外部知识进行上下文验证。我们的实验表明,SNIFFER的检测准确率超过原始的MLLM超过40%,并且在检测准确性方面优于最先进的方法。SNIFFER还提供了准确和有说服力的解释,经过定量和人类评估验证。
  • 图表
  • 解决问题
    本文旨在解决信息误导的问题,特别是针对图片和文本不一致的情况。当前方法虽然可以评估图文一致性,但缺乏令人信服的解释来说明其判断,而解释是揭露误导的关键。因此,本文提出了一种新的多模态大型语言模型SNIFFER,旨在检测和解释图片和文本不一致的情况。
  • 关键思路
    SNIFFER是一种专门设计用于检测和解释图片和文本不一致的多模态大型语言模型。该模型通过两个阶段的指令微调来提高其概念对齐和歧视能力,并利用外部工具和检索来提高其上下文验证能力。相比于当前领域的研究,SNIFFER的关键思路在于结合了多模态大型语言模型的视觉推理和解释生成的能力,并且通过指令微调和外部工具的协同作用提高了检测的准确性和解释的可信度。
  • 其它亮点
    本文的实验结果表明,SNIFFER的检测准确性超过了原始的多模态大型语言模型40%以上,并且在检测准确性方面优于现有的最先进方法。此外,SNIFFER提供的解释不仅准确,而且具有说服力,这也得到了定量和人类评估的验证。本文使用了InstructBLIP数据集,并提供了开源代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:1. VisualBERT: A Simple and Performant Baseline for Vision and Language (Li et al., 2019);2. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks (Lu et al., 2019);3. UNITER: Learning UNiversal Image-TExt Representations (Chen et al., 2020)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论