- 简介大型多模态模型(LMMs),如LLaVA,在视觉-语言推理方面表现出强大的性能。这些模型首先将图像嵌入到固定数量的视觉标记中,然后将它们馈送到大型语言模型(LLM)中。然而,这种设计对于高分辨率图像和视频等密集视觉场景会产生过多的标记,导致效率低下。虽然存在标记修剪/合并方法,但它们为每个图像生成单个长度输出,并且在信息密度与效率之间的权衡方面没有灵活性。受到母婴娃娃概念的启发,我们提出了M3:母婴娃娃多模态模型,它学习将视觉内容表示为捕捉多个粗到细粒度信息的嵌套视觉标记集。我们的方法为LMMs提供了几个独特的好处:(1)可以在推理期间明确控制每个测试实例的视觉粒度,例如,根据内容的预期复杂性或简单性调整用于表示图像的标记数;(2)M3为分析现有数据集所需的粒度提供了框架,我们发现,COCO风格的基准测试只需要大约9个视觉标记即可获得与使用所有576个标记相似的准确性;(3)我们的方法为在样本级别探索性能和视觉标记长度之间的最佳权衡提供了基础,我们的调查揭示了神谕上限和当前固定比例表示之间存在很大差距。
-
- 图表
- 解决问题论文试图解决在使用大型多模态模型处理高清图像和视频时,由于固定的大量视觉令牌而导致的低效问题,提出了Matryoshka Multimodal Models(M3)来解决这个问题。
- 关键思路M3学习将视觉内容表示为嵌套的视觉令牌集,以跨多个粗到细的粒度捕获信息,并提供了在推理期间显式控制每个测试实例的视觉粒度的方法。
- 其它亮点M3提供了一种分析现有数据集所需粒度的框架,发现COCO样式基准测试只需要约9个视觉令牌即可获得与使用所有576个令牌相似的准确性;M3为探索性能和视觉令牌长度之间的最佳权衡提供了基础,实验结果表明当前的固定比例表示与理论上的最优结果之间存在巨大差距。
- 最近在这个领域中,与M3相关的研究包括使用令牌剪枝/合并方法来提高效率的论文,以及其他探索性能和效率之间权衡的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流