CROME: Cross-Modal Adapters for Efficient Multimodal LLM

2024年08月13日
  • 简介
    多模态大语言模型(MLLMs)展示了卓越的图像-语言能力,但它们的广泛使用面临成本效益训练和适应性方面的挑战。现有方法通常需要昂贵的语言模型重新训练和有限的适应性。此外,当前关注零-shot性能提高的焦点为任务特定调整提供了不充分的指导。我们提出了一种高效的视觉-语言指令调整框架CROME。它具有一种新颖的门控交叉模态适配器,可以在输入到冻结的LLM之前有效地组合视觉和文本表示。这个轻量级适配器只需要少量的参数训练,就可以实现高效的跨模态理解。值得注意的是,CROME在标准的视觉问答和指令遵循基准测试中展示出优越的零-shot性能。此外,它还产生了具有异常参数效率的微调,与任务特定的专家最先进方法竞争。CROME展示了预LM对于构建可扩展、适应性强和参数高效的多模态模型的潜力。
  • 图表
  • 解决问题
    论文提出了CROME框架,旨在解决多模态语言模型(MLLMs)在成本有效的训练和适应方面面临的挑战。当前的方法需要昂贵的语言模型重新训练和有限的适应性。此外,当前的零-shot性能改进的重点提供了不足的任务特定调整指导。
  • 关键思路
    CROME框架提出了一种新颖的门控跨模态适配器,将视觉和文本表示有效地结合起来,然后输入到冻结的LLM中。这个轻量级适配器,用最少的参数进行训练,实现了高效的跨模态理解。CROME展示了预-LM对构建可扩展、适应性强、参数效率高的多模态模型的潜力。
  • 其它亮点
    CROME展示了在标准视觉问答和指令遵循基准测试中优越的零-shot表现。此外,它表现出具有异常参数效率的微调能力,与任务特定专家最先进的方法竞争。
  • 相关研究
    最近的相关研究包括:1)VILLA:一种可变形的视觉语言学习方法;2)CLIP:使用对抗性对比学习进行图像分类和文本检索;3)UNITER:一种用于视觉和语言理解的统一转换器。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论