LLM-Seg: Bridging Image Segmentation and Large Language Model Reasoning

简介

理解人类指令以识别目标对象对于感知系统至关重要。近年来，大型语言模型的发展为图像分割带来了新的可能性。在本文中，我们深入探讨了推理分割，这是一项新颖的任务，使分割系统能够通过大型语言模型推理来理解和解释隐含的用户意图，然后分割相应的目标。我们在推理分割的方法设计和数据集标注方面做出了贡献。对于模型，我们提出了一个名为LLM-Seg的新框架。LLM-Seg通过掩码提议选择有效地连接了当前基础分割任何模型和LLM。对于数据集，我们提出了一个自动数据生成流水线，并构建了一个新的推理分割数据集，名为LLM-Seg40K。实验表明，我们的LLM-Seg表现与现有方法相比具有竞争力。此外，我们提出的流水线可以高效地生成高质量的推理分割数据集。通过这个流水线开发的LLM-Seg40K数据集，可以作为训练和评估各种推理分割方法的新基准。我们的代码、模型和数据集位于https://github.com/wangjunchi/LLMSeg。
图表
解决问题

本篇论文旨在解决图像分割中的推理分割问题，即通过大型语言模型推理和理解隐含的用户意图，进而对应分割目标。这是一个新的问题。
关键思路

论文提出了一种新的框架LLM-Seg，它通过蒙版提案选择有效地连接了当前基础分割模型和LLM。同时，论文还提出了一个自动数据生成管道和一个新的推理分割数据集LLM-Seg40K。
其它亮点

论文使用LLM-Seg框架和LLM-Seg40K数据集进行实验，结果表明其性能与现有方法相当。此外，论文提出的自动数据生成管道可以高效地生成高质量的推理分割数据集。研究人员已在GitHub上公开了代码、模型和数据集，可供其他研究者使用。
相关研究

最近在这个领域中，也有一些相关的研究，例如：《Semantic Segmentation with a Conditionally-Adaptive Meta-Architecture》、《Exploring Contextual Information for Semantic Segmentation with Fully Convolutional Networks》等。

LLM-Seg: Bridging Image Segmentation and Large Language Model Reasoning

评论