Matting Anything

Jiachen Li, Jitesh Jain, Humphrey Shi
[UIUC & Oregon]

动机：图像抠图是计算机视觉中的一个长期任务，其目标是估计给定输入图像的alpha matte。然而，现有的深度学习图像抠图方法通常专门针对特定的图像抠图任务，缺乏处理各种图像抠图任务的灵活性。此外，现有的图像抠图方法通常依赖用户引导的trimaps作为辅助输入，这对用户的交互使用带来了困扰。因此，开发一个能够准确估计alpha matte，同时能够灵活处理用户请求的模型是至关重要的。
方法：提出一个名为Matting Anything Model(MAM)的模型，能估计图像中任意实例的alpha matte。MAM利用了最近的Segment Anything Model(SAM)框架，该框架支持灵活的提示，并输出任意目标实例的分割掩模。具体来说，MAM将SAM的特征图和掩模输出作为输入，并添加了一个轻量的Mask-to-Matte(M2M)模块来预测目标实例的alpha matte。
优势：MAM相比之前的专门的图像抠图网络有几个显著的优点：(i) MAM能处理各种类型的图像抠图，包括语义抠图、实例抠图和指向图像抠图，只需要一个模型；(ii) MAM利用了SAM的特征图，采用一个轻量的 Mask-to-Matte(M2M)模块通过迭代细化预测alpha matte，该模块只有270万个可训练参数；(iii) 通过整合SAM，MAM将图像抠图的交互使用所需的用户干预简化为box，point或text prompt。实验结果表明，MAM在各种图像抠图基准测试中都达到了与专门抠图模型相当的性能。

Matting Anything Model(MAM)是一个能处理各种类型图像抠图任务的模型，利用了Segment Anything Model(SAM)的特征图，并采用一个轻量的Mask-to-Matte(M2M)模块来预测alpha matte，实验结果表明，MAM在各种图像抠图基准测试中都达到了与专门抠图模型相当的性能。

https://arxiv.org/abs/2306.05399

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Matting Anything

评论