PixelLM: Pixel Reasoning with Large Multimodal Model

简介

虽然大型多模态模型（LMMs）取得了显著的进展，但为涉及多个开放世界目标的图像推理任务生成像素级掩码仍然是一个挑战。为了弥合这一差距，我们介绍了PixelLM，一种用于像素级推理和理解的有效且高效的LMM。PixelLM的核心是一种新颖的、轻量级的像素解码器和一个全面的分割码书。解码器通过码书令牌的隐藏嵌入有效地生成掩码，这些令牌编码了详细的与目标相关的信息。通过这种设计，PixelLM与流行的LMM结构协调，并避免了需要额外昂贵的分割模型的需求。此外，我们提出了目标细化损失，以增强模型区分多个目标的能力，从而显著提高掩码质量。为了推进这一领域的研究，我们构建了MUSE，一个高质量的多目标推理分割基准。PixelLM在各种像素级图像推理和理解任务中表现优异，超过了多个基准测试中的成熟方法，包括MUSE、单引用和多引用分割。全面的消融实验证实了每个提出的组件的有效性。所有代码、模型和数据集都将公开发布。
图表
解决问题

PixelLM旨在解决多个开放世界目标的像素级掩模生成问题。
关键思路

PixelLM使用轻量级像素解码器和全面的分割码书来有效地实现像素级推理和理解。码书标记的隐藏嵌入提供了与目标相关的详细信息，解码器从中有效地生成掩模。PixelLM的设计与流行的LMM结构协调，避免了需要额外昂贵的分割模型。
其它亮点

论文提出了一个高质量的多目标推理分割基准MUSE，并在多个基准测试中优于已有的方法。论文还提出了目标细化损失来提高模型区分多个目标的能力。实验结果表明了每个提出组件的有效性。所有代码、模型和数据集都将公开。
相关研究

在这个领域中，最近的相关研究包括：《Mask R-CNN》、《Panoptic Segmentation》、《Visual Relationship Detection with Language Priors》等。

PixelLM: Pixel Reasoning with Large Multimodal Model

评论