- 简介本文介绍了一种对多模态大型语言模型(MLLMs)进行扩展的方法,即赋予其分割能力,使其能够理解图像-语言提示并展现出强大的推理能力。通过为原有的词嵌入增加一个额外的分割标记,并对对话生成和查询聚焦分割进行微调,现有的工作LISA扩展了MLLMs的输出,使其能够输出对图像-语言提示的语言响应并分割出语言提示中复杂问题或查询所关注的区域。虽然他们实现了优秀的分割性能,但我们观察到,与原始MLLMs相比,对话能力大幅下降。为了保持原始MLLMs的对话能力,我们提出了一种新的MLLMs框架,称为LLaVASeg,它利用了一种思维链提示策略,指导MLLMs分割用户查询的目标区域。首先,MLLMs被提示从复杂的用户查询中推理出目标区域的简单描述,然后根据MLLMs对图像的理解提取目标区域的视觉属性,如颜色和相对位置,利用这些视觉属性来提示下游分割模型。实验证明,所提出的方法保持了原始的对话能力,并赋予了MLLMs模型强大的推理分割能力。代码可在https://github.com/YuqiYang213/LLaVASeg上获得。
- 图表
- 解决问题论文旨在扩展多模态大语言模型的输出能力,使其具备分割能力。具体而言,论文试图解决如何在保持原有对话生成能力的前提下,使多模态大语言模型具备强大的分割推理能力的问题。
- 关键思路论文提出了一种名为LLaVASeg的多模态大语言模型框架,该框架采用了一种连锁思维提示策略,以指导模型对用户查询的目标区域进行分割。具体而言,该框架首先要求模型对用户查询中目标区域的简单描述进行推理,然后根据模型对图像的理解提取目标区域的视觉属性,例如颜色和相对位置,最后利用这些视觉属性来指导下游的分割模型。
- 其它亮点论文使用了一个名为LISA的现有方法作为基线,并将其与提出的LLaVASeg方法进行了比较。实验结果表明,LLaVASeg方法在保持原有对话能力的同时,具有比LISA更强的分割推理能力。此外,论文还提供了开源代码和使用的数据集。
- 最近在这个领域中,还有一些相关的研究,例如《DALL-E: Creating Images from Text》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
沙发等你来抢
去评论
评论
沙发等你来抢