- 简介大型视觉语言模型(LVLMs)显著提高了多模态推理任务的性能,如视觉问答和图像字幕生成。这些模型将多模态事实嵌入其参数中,而不是依赖于外部知识库来显式存储事实信息。然而,由于固有偏差或不正确的推理,LVLMs所识别的内容可能偏离实际事实。为了解决这个问题,我们引入了MFC-Bench,这是一个严格而全面的基准,旨在评估LVLMs在三个任务(操作、上下文外和真实性分类)中的事实准确性。通过我们在MFC-Bench上的评估,我们对12个不同且具有代表性的LVLMs进行了基准测试,发现当前模型在多模态事实检查方面仍然存在不足,并且对各种形式的操纵内容表现出麻木不仁。我们希望MFC-Bench能够引起人们对未来潜在由LVLMs协助的可信人工智能的关注。MFC-Bench和相关资源可在https://github.com/wskbest/MFC-Bench上公开访问,为多模态事实检查领域的持续研究做出贡献。
-
- 图表
- 解决问题本文旨在解决当前大型视觉语言模型在多模态事实检查方面存在的偏差和错误推理问题,提出了一个全面的基准测试MFC-Bench。
- 关键思路MFC-Bench是一个全面的基准测试,旨在评估大型视觉语言模型在三个任务(操作、上下文外、真实性分类)中的事实准确性,通过测试12个不同的模型,揭示了当前模型在多模态事实检查方面的不足。
- 其它亮点本文提出了一个全面的基准测试MFC-Bench,用于评估大型视觉语言模型在多模态事实检查方面的性能;通过测试12个不同的模型,揭示了当前模型在多模态事实检查方面的不足;MFC-Bench和相关资源在github上公开。
- 最近的相关研究包括:《VL-BERT:通过视觉和语言建模进行多模态学习》、《基于BERT的多模态预训练模型和数据集》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流