Large Visual-Language Models Are Also Good Classifiers: A Study of In-Context Multimodal Fake News Detection

简介

大型视觉语言模型（LVLM）在各种跨模态基准测试中展现出卓越的视觉语言推理性能。尽管如此，最近的研究表明，像GPT-3.5-turbo这样的大型语言模型（LLM）在假新闻检测（FND）方面表现不佳，与经过良好训练的较小模型（如BERT）相比，这引发了人们对LVLM在FND任务中有效性的疑问。虽然通过微调LVLM的性能可能会提高，但是大量的参数和必要的预训练权重使其成为FND应用的重负。本文首先评估了两个著名的LVLM，CogVLM和GPT4V，在零样本情况下与一个经过充分训练的较小的CLIP模型进行比较的FND能力。研究结果表明，LVLM可以达到与较小模型相当的性能。接下来，我们将标准的上下文学习（ICL）与LVLM相结合，注意到FND性能的改进，尽管范围和一致性有限。为了解决这个问题，我们引入了\textbf{I}n-context \textbf{M}ultimodal \textbf{F}ake \textbf{N}ews \textbf{D}etection（IMFND）框架，通过预测和相应概率来丰富上下文示例和测试输入。这种策略性的集成将LVLM的注意力集中在与更高概率相关的新闻片段上，从而提高其分析准确性。实验结果表明，IMFND框架显著提高了LVLM的FND效率，在三个公开可用的FND数据集上，比标准ICL方法实现了更高的准确性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在探讨大型视觉语言模型（LVLMs）在虚假新闻检测（FND）任务中的效能，并提出一种新的框架IMFND来提高LVLMs的FND性能。
关键思路

论文首先比较了LVLMs和小型CLIP模型在零样本情况下的FND性能，并发现LVLMs可以达到与小型模型相当的性能。然后，论文提出了IMFND框架，将LVLMs和小型模型结合起来，以提高LVLMs的FND性能。
其它亮点

论文使用了公开的FND数据集，并展示了IMFND框架在三个数据集上的显著性能提升。此外，论文指出了LVLMs在FND任务中的局限性，并提供了一些值得进一步研究的方向。
相关研究

最近的相关研究包括大型语言模型在自然语言处理和计算机视觉任务中的应用，以及虚假新闻检测的其他方法。

Large Visual-Language Models Are Also Good Classifiers: A Study of In-Context Multimodal Fake News Detection

提问交流

提问交流