PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model

2024年03月21日
  • 简介
    PSALM是大型多模型模型(LMM)的强大扩展,用于解决分割任务的挑战。为了克服LMM仅限于文本输出的局限性,PSALM引入了一个遮罩解码器和一个精心设计的输入模式,以处理各种分割任务。该模式包括图像、任务说明、条件提示和遮罩标记,使模型能够有效地生成和分类分割遮罩。PSALM的灵活设计支持跨多个数据集和任务的联合训练,从而提高了性能和任务的普适性。PSALM在多个基准测试中取得了优异的成绩,如RefCOCO/RefCOCO+/RefCOCOg、COCO全景分割和COCO-交互式等,并在未见过的任务上展现了零-shot能力,如开放式词汇分割、广义指称表达式分割和视频对象分割,这是计算机视觉领域迈向GPT时刻的重要一步。通过广泛的实验,PSALM展示了将图像分割领域转化的潜力,利用了LMM在自然语言处理中所展现的强大的视觉理解能力。代码和模型可在https://github.com/zamling/PSALM上获得。
  • 图表
  • 解决问题
    PSALM试图解决图像分割任务中的挑战,特别是针对LMM只能输出文本的局限性。论文旨在通过引入掩码解码器和精心设计的输入模式来解决这个问题。
  • 关键思路
    PSALM的关键思路是将多模态模型(LMM)扩展为能够有效处理各种分割任务的模型,包括图像、任务说明、条件提示和掩码令牌等多种输入方式,从而生成和分类分割掩码。
  • 其它亮点
    PSALM通过在多个数据集和任务之间进行联合训练,实现了更好的性能和任务泛化能力。在RefCOCO / RefCOCO + / RefCOCOg、COCO Panoptic Segmentation和COCO-Interactive等基准测试中,PSALM取得了卓越的结果,并在未见过的任务上展现了零样本能力,如开放词汇分割、广义指称表达式分割和视频对象分割。
  • 相关研究
    在这个领域中,最近的相关研究包括:GPT、BERT、ViLBERT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论