- 简介最近大型语言模型(LLMs)的进展促进了多模态LLMs(MLLMs)的发展。尽管它们具有令人印象深刻的能力,但MLLMs经常过度依赖于单模态偏差(例如语言偏差和视觉偏差),导致在复杂的多模态任务中出现错误答案。为了研究这个问题,我们提出了一个因果框架来解释视觉问答(VQA)问题中的偏差。在我们的框架内,我们设计了一个因果图来阐明MLLMs在VQA问题上的预测,并通过深入的因果分析评估偏差的因果效应。受因果图的启发,我们引入了一个新的MORE数据集,包括12,000个VQA实例。这个数据集旨在挑战MLLMs的能力,需要多跳推理和克服单模态偏差。此外,我们提出了两种策略来减轻单模态偏差并增强MLLMs的推理能力,包括一个用于有限访问MLLMs的分解-验证-答案(DeVA)框架和通过微调改进开源MLLMs。广泛的定量和定性实验为未来的研究提供了有价值的见解。
- 图表
- 解决问题本论文旨在解决Multimodal LLMs在复杂多模态任务中过度依赖单模态偏见的问题,并提出了一个因果框架来解释Visual Question Answering(VQA)问题中的偏见。
- 关键思路论文提出了一个因果图来阐明MLLMs在VQA问题上的预测,并通过深入的因果分析评估偏见的因果效应。同时,提出了两种策略来减轻单模态偏见并增强MLLMs的推理能力。
- 其它亮点论文提出了一个MORE数据集,包含12,000个VQA实例,旨在挑战MLLMs的能力,需要多跳推理和克服单模态偏见。同时,提出了两种策略来减轻单模态偏见并增强MLLMs的推理能力,包括针对有限访问MLLMs的Decompose-Verify-Answer(DeVA)框架和通过微调改进开源MLLMs。实验结果表明,这些策略可以有效地减轻单模态偏见并提高MLLMs的性能。
- 最近在这个领域中,还有一些相关的研究,如《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unified Vision-Language Pre-Training for Image Captioning and VQA》等。
沙发等你来抢
去评论
评论
沙发等你来抢