AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning

简介

通过大规模的筛选训练数据，Segment Anything Model (SAM) 在引导下展示了在开放世界场景下惊人的泛化能力。然而，SAM 模型是无类别的，且严重依赖于用户提供的提示来分割感兴趣的对象。将这种方法适应于各种任务对于准确的目标识别和避免次优的分割结果至关重要。本文提出了一种新的框架，称为 AlignSAM，旨在通过强化学习实现自动提示，以将 SAM 模型与开放环境对齐。AlignSAM 由一个代理锚定，使 SAM 模型在保持参数冻结的同时，能够适用于各种下游任务。具体而言，AlignSAM 启动一个提示代理，通过与基础模型交互来迭代地细化分割预测。它集成了一个强化学习策略网络，以提供信息提示给基础模型。此外，还引入了一个语义重校准模块，以提供提示的细粒度标签，增强模型处理包含显式和隐式语义的任务的能力。在现有基础模型的各种具有挑战性的分割任务上进行的实验表明，所提出的 AlignSAM 比现有的最先进方法更为优越。项目页面：\url{https://github.com/Duojun-Huang/AlignSAM-CVPR2024}。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种名为AlignSAM的框架，通过强化学习实现自动提示，将SAM模型适应于不同的任务，从而提高目标识别的准确性和避免次优分割结果。
关键思路

AlignSAM框架通过引入一个代理来与基础模型交互，使用强化学习策略网络提供信息提示，从而在保持参数冻结的同时，实现SAM模型在不同下游任务中的通用性。
其它亮点

论文提出的AlignSAM框架在多个具有挑战性的分割任务中进行了实验，证明其优于现有方法。此外，论文还引入了语义重新校准模块，提供提示的细粒度标签，增强模型在处理显式和隐式语义的任务中的能力。项目页面提供了代码和数据集。
相关研究

最近的相关研究包括DeepLab、Mask R-CNN、U-Net等。

AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning

提问交流

提问交流