- 简介最近,多模态大型语言模型呈现出无尽的多样性,大多数受欢迎的大视觉语言模型(LVLMs)依赖于顺序视觉表示,即将图像转换为数百或数千个标记,然后将其与语言提示一起输入到大型语言模型(LLM)中。黑匣子设计阻碍了视觉语言模型的可解释性,特别是在更复杂的推理任务方面。为了探索图像和文本在复杂推理任务中的交互过程,我们引入了信息流方法来可视化交互机制。通过分析信息流的动态流动,我们发现信息流似乎在浅层中汇聚。进一步的调查揭示了浅层中图像标记的冗余。因此,引入了一种截断策略来聚合这些浅层中的图像标记。这种方法已通过多个模型的实验验证,产生了一致的改进。
- 图表
- 解决问题本论文试图解决黑盒设计的视觉语言模型在复杂推理任务中的可解释性问题。
- 关键思路论文提出信息流方法可视化图像和文本在复杂推理任务中的交互过程,并发现浅层存在图像标记冗余,因此引入截断策略以聚合这些浅层内的图像标记。
- 其它亮点论文的实验结果表明,该截断策略在多个模型中都能够稳定提高性能。论文使用了多个数据集,并且开源了代码。
- 最近的相关研究包括《VILLA: A Vision-and-Language Labelling Framework》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
沙发等你来抢
去评论
评论
沙发等你来抢