- 简介大型多模型(LMM)是计算机视觉领域的热门研究课题,也在多个学科领域展现出了显著的潜力。最近的一个趋势是进一步扩展和增强LMM的感知能力。当前的方法遵循将视觉任务输出调整到语言模型格式的范例,这是LMM的主要组成部分。这种适应性导致这样的LMM开发方便,且修改最小,但是它忽略了不同视觉任务的内在特征,阻碍了感知能力的学习。为了解决这个问题,我们提出了一种新的LMM架构,名为Lumen,它是一种具有多功能视觉中心能力增强的大型多模型。我们将LMM的感知能力学习分解为任务无关和任务特定的阶段。Lumen首先促进了细粒度的视觉语言概念对齐,这是各种视觉任务的基本能力。因此,任务无关阶段的输出是本文中所有任务共享的表示。然后,通过将共享表示灵活路由到轻量级任务解码器中,可以进行任务特定的解码,其训练工作量可以忽略不计。由于这种分解设计的好处,我们的Lumen在COCO检测基准测试中超过了现有的基于LMM的方法,并展示了对其他视觉任务的无缝可扩展性。此外,我们还进行了全面的消融研究和普适性评估,以获得更深入的见解。代码将在https://github.com/SxJyJay/Lumen上发布。
-
- 图表
- 解决问题本论文旨在提高大型多模型模型(LMM)的感知能力,通过解耦任务无关和任务特定阶段,以提高学习感知能力的效率。
- 关键思路该论文提出了一种名为Lumen的新型LMM架构,将感知能力的学习分为任务无关和任务特定阶段,并通过灵活路由共享表示来进行任务特定解码。
- 其它亮点Lumen在COCO检测基准测试中表现出色,比现有的LMM方法具有明显的优势,并且对于其他视觉任务具有无缝的可扩展性。此外,论文还进行了全面的消融研究和推广评估。
- 最近的相关研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流