Deep Instruction Tuning for Segment Anything Model

简介

Segment Anything Model (SAM)最近在（非）条件图像分割任务中展现出强大而多才多艺的能力。尽管SAM可以支持各种分割提示，但我们注意到，与基于点和框的分割相比，它在基于文本的任务上表现要差得多。我们认为，通过对其默认轻量级掩码解码器中的浅层融合方案进行深度文本指导调整，可以缓解这种缺陷。本文提出了两种深度指导调整（DIT）方法，一种是端到端的，另一种是逐层的。通过这些调整方法，我们可以将SAM的图像编码器视为一个独立的视觉语言学习器，而不是构建另一个深度融合分支。在三个高度竞争的参考图像分割基准数据集上进行了大量实验，结果表明，简单的端到端DIT大大提高了SAM的性能，而逐层DIT进一步提升了性能，达到了最先进水平。我们的代码在 https://github.com/wysnzzzz/DIT 上匿名发布。
图表
解决问题

本论文试图解决的问题是，在图像分割任务中，如何通过深度文本指导调整模型，提高模型的性能表现。
关键思路

论文提出了两种深度文本指导调整方法，一种是端到端的，另一种是分层的。这些方法可以将SAM的图像编码器视为一个独立的视觉-语言学习器，从而提高其性能表现。
其它亮点

论文在三个竞争激烈的基准数据集上进行了广泛的实验，证明了深度文本指导调整方法的有效性。其中，端到端的方法已经大幅度提高了SAM的性能表现，分层的方法更进一步将其推向了最先进水平。此外，论文还匿名发布了其代码。
相关研究

最近在这个领域中，一些相关的研究包括：《Attention-Guided Network for Ghost-Free High Dynamic Range Imaging》、《Deep Learning for Image Segmentation: A Survey》、《End-to-End Object Detection with Transformers》等。

Deep Instruction Tuning for Segment Anything Model

评论