Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models

简介

大型多模型(LMM)是计算机视觉领域的热门研究课题，也在多个学科领域展现出了显著的潜力。最近的一个趋势是进一步扩展和增强LMM的感知能力。当前的方法遵循将视觉任务输出调整到语言模型格式的范例，这是LMM的主要组成部分。这种适应性导致这样的LMM开发方便，且修改最小，但是它忽略了不同视觉任务的内在特征，阻碍了感知能力的学习。为了解决这个问题，我们提出了一种新的LMM架构，名为Lumen，它是一种具有多功能视觉中心能力增强的大型多模型。我们将LMM的感知能力学习分解为任务无关和任务特定的阶段。Lumen首先促进了细粒度的视觉语言概念对齐，这是各种视觉任务的基本能力。因此，任务无关阶段的输出是本文中所有任务共享的表示。然后，通过将共享表示灵活路由到轻量级任务解码器中，可以进行任务特定的解码，其训练工作量可以忽略不计。由于这种分解设计的好处，我们的Lumen在COCO检测基准测试中超过了现有的基于LMM的方法，并展示了对其他视觉任务的无缝可扩展性。此外，我们还进行了全面的消融研究和普适性评估，以获得更深入的见解。代码将在https://github.com/SxJyJay/Lumen上发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提高大型多模型模型（LMM）的感知能力，通过解耦任务无关和任务特定阶段，以提高学习感知能力的效率。
关键思路

该论文提出了一种名为Lumen的新型LMM架构，将感知能力的学习分为任务无关和任务特定阶段，并通过灵活路由共享表示来进行任务特定解码。
其它亮点

Lumen在COCO检测基准测试中表现出色，比现有的LMM方法具有明显的优势，并且对于其他视觉任务具有无缝的可扩展性。此外，论文还进行了全面的消融研究和推广评估。
相关研究

最近的相关研究包括：《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。

Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models

提问交流

提问交流