LaSagnA: Language-based Segmentation Assistant for Complex Queries

简介

最近的进展使得大型语言模型在视觉领域（vLLMs）中能够生成详细的感知结果，包括边界框和掩码。然而，有两个限制限制了这些vLLMs的进一步应用：无法处理每个查询中的多个目标以及无法识别图像中查询对象的缺失。在本研究中，我们认识到这些问题的主要原因是训练查询的复杂性不足。因此，我们定义了复杂查询的通用序列格式。然后，我们在当前流程中加入了一个语义分割任务，以满足训练数据的要求。此外，我们提出了三种新的策略来有效处理直接集成所提出格式所带来的挑战。我们的模型在处理复杂查询方面的有效性通过与传统方法在闭集和开集语义分割数据集上的可比结果得到验证。此外，我们在推理和引用分割方面胜过了一系列vLLMs，展示了我们模型的显着能力。我们在https://github.com/congvvc/LaSagnA发布了代码。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文尝试解决vLLMs无法处理多个目标和无法识别图像中不存在查询对象的问题。这是否是一个新问题？
关键思路

关键思路：论文提出了一种复杂查询的通用序列格式，并将语义分割任务整合到当前流程中以满足训练数据的要求。此外，论文还提出了三种有效处理挑战的策略。相比当前领域的研究，这篇论文的思路具有新意。
其它亮点

其他亮点：论文在接近集和开放集语义分割数据集上验证了模型处理复杂查询的有效性，并在推理和引用分割方面优于一系列vLLMs。此外，作者在GitHub上公开了代码。
相关研究

相关研究：最近的相关研究包括“Leveraging the capabilities of vLLMs for image generation”和“Improving the performance of vLLMs in object detection and segmentation”。

LaSagnA: Language-based Segmentation Assistant for Complex Queries

提问交流

提问交流