Segment Anything Model for automated image data annotation: empirical studies using text prompts from Grounding DINO

简介

Grounding DINO和Segment Anything Model（SAM）分别在零样本目标检测和图像分割方面取得了令人印象深刻的性能。它们共同具有在零样本语义分割或数据注释应用中改变应用的巨大潜力。然而，在医学图像分割等专业领域中，感兴趣的对象（例如器官、组织和肿瘤）可能不属于现有的类别名称。为解决这个问题，利用Grounding DINO的指称表达理解（REC）能力，通过语言描述检测任意目标。然而，最近的研究强调了REC框架在这种应用环境中的严重局限性，因为它倾向于在给定图像中目标缺失时做出误报预测。虽然这个瓶颈是开放式语义分割前景的核心问题，但目前还不知道通过研究预测错误可以取得多大的改进。为此，我们在不同领域的六个公开数据集上进行实证研究，揭示了这些错误始终遵循可预测的模式，并且可以通过简单的策略来减轻。具体而言，我们发现具有可观的置信度分数的误报检测通常占据大的图像区域，并且通常可以通过它们的相对大小进行过滤。更重要的是，我们希望这些观察结果能够激发未来改进基于REC的检测和自动分割的研究。同时，我们在来自各种专业领域的多个数据集上评估了SAM的性能，并报告了在分割性能和注释时间节省方面的显着改进。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决医学图像分割等专业领域中，目标物体不属于已有类别的情况下，利用Grounding DINO和SAM进行零样本语义分割或数据注释的问题。同时，论文还探究了Grounding DINO在该应用场景中存在的误检问题。
关键思路

通过利用Grounding DINO的指代表达理解（REC）能力，根据物体的语言描述来检测任意目标物体，同时通过对误检问题的研究，提出了一种简单的过滤策略。
其它亮点

论文在六个公开数据集上进行了实验，揭示了误检问题的可预测性，并提出了一种简单的过滤策略。此外，论文还评估了SAM在多个专业领域数据集上的性能，并证明了其在分割性能和注释时间节省方面的显著改进。
相关研究

在该领域的相关研究包括：1. Learning to Segment Every Thing (LST)；2. Zero-shot Object Detection (ZSD)；3. Referring Expression Comprehension (REC)。

Segment Anything Model for automated image data annotation: empirical studies using text prompts from Grounding DINO

提问交流

提问交流