Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective

2024年03月27日
  • 简介
    最近大型语言模型(LLMs)的进展促进了多模态LLMs(MLLMs)的发展。尽管它们具有令人印象深刻的能力,但MLLMs经常过度依赖于单模态偏差(例如语言偏差和视觉偏差),导致在复杂的多模态任务中出现错误答案。为了研究这个问题,我们提出了一个因果框架来解释视觉问答(VQA)问题中的偏差。在我们的框架内,我们设计了一个因果图来阐明MLLMs在VQA问题上的预测,并通过深入的因果分析评估偏差的因果效应。受因果图的启发,我们引入了一个新的MORE数据集,包括12,000个VQA实例。这个数据集旨在挑战MLLMs的能力,需要多跳推理和克服单模态偏差。此外,我们提出了两种策略来减轻单模态偏差并增强MLLMs的推理能力,包括一个用于有限访问MLLMs的分解-验证-答案(DeVA)框架和通过微调改进开源MLLMs。广泛的定量和定性实验为未来的研究提供了有价值的见解。
  • 图表
  • 解决问题
    本论文旨在解决Multimodal LLMs在复杂多模态任务中过度依赖单模态偏见的问题,并提出了一个因果框架来解释Visual Question Answering(VQA)问题中的偏见。
  • 关键思路
    论文提出了一个因果图来阐明MLLMs在VQA问题上的预测,并通过深入的因果分析评估偏见的因果效应。同时,提出了两种策略来减轻单模态偏见并增强MLLMs的推理能力。
  • 其它亮点
    论文提出了一个MORE数据集,包含12,000个VQA实例,旨在挑战MLLMs的能力,需要多跳推理和克服单模态偏见。同时,提出了两种策略来减轻单模态偏见并增强MLLMs的推理能力,包括针对有限访问MLLMs的Decompose-Verify-Answer(DeVA)框架和通过微调改进开源MLLMs。实验结果表明,这些策略可以有效地减轻单模态偏见并提高MLLMs的性能。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unified Vision-Language Pre-Training for Image Captioning and VQA》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论