- 简介理解Transformer-based模型中信息存储和传递的机制对于推动模型理解的进展非常重要。最近的工作研究了大型语言模型(LLMs)的这些机制,揭示了有关信息如何存储在模型参数中以及在特定提示下信息如何从这些参数流入和流出的见解。然而,这些研究尚未扩展到多模态大型语言模型(MLLMs)。考虑到它们不断扩展的能力和实际应用,我们首先研究这些模型的一个方面——MLLMs如何在事实视觉问答任务中处理信息。我们使用基于约束的公式,将视觉问题视为具有一组视觉或文本约束的问题,模型生成的答案必须满足这些约束才能正确(例如,“这张照片中导演的哪部电影获得了金球奖?”)。在这种设置下,我们提出了i)一种方法,将因果信息跟踪从纯语言扩展到多模态设置,并且ii)提供了一个包含9.7K个带有约束注释的视觉问题的测试平台VQA-Constraints。我们使用这些工具研究了两个开源MLLMs,LLaVa和多模态Phi-2。我们的主要发现表明,与LLMs中的中间层MLPs更重要相比,这些MLLMs更早的层依赖于MLP和自我注意块进行信息存储。我们还表明,视觉编码器输出的一致小子集负责将信息从图像传输到这些因果块。我们通过引入MultEdit来验证这些机制,这是一种模型编辑算法,可以通过针对这些因果块来纠正错误并插入新的长尾信息。
- 图表
- 解决问题研究多模态大语言模型(MLLM)在事实性视觉问答任务中的信息处理机制,探究信息存储和传递的方式
- 关键思路使用基于约束的方法,将视觉问题看作是一组视觉或文本约束条件,MLLM必须满足这些条件才能生成正确答案。研究表明,MLLM在信息存储方面更依赖于MLP和自注意力块的早期层,而不是像LLM那样依赖于中间层的MLP。研究还发现,视觉编码器输出的一小部分视觉标记负责将信息从图像传递到这些因果块。
- 其它亮点研究提出了一种扩展因果信息追踪的方法,从纯语言扩展到多模态设置。还提出了VQA-Constraints数据集,包含9.7K个带有约束注释的视觉问题。研究使用了两个开源MLLM模型LLaVa和multi-modal Phi-2,并介绍了MultEdit,一种模型编辑算法,可以通过针对这些因果块来纠正错误并插入新的长尾信息。
- 最近的相关研究主要集中在LLM上,探究信息存储和传递的方式。相关论文包括“Understanding the Generalization Gap in Transformers via Analyzing and Synthesizing Gradient Flow”和“Visualizing and Measuring the Geometry of BERT”。
沙发等你来抢
去评论
评论
沙发等你来抢