Matting Anything

Jiachen Li, Jitesh Jain, Humphrey Shi
[UIUC & Oregon]

  • 动机:图像抠图是计算机视觉中的一个长期任务,其目标是估计给定输入图像的alpha matte。然而,现有的深度学习图像抠图方法通常专门针对特定的图像抠图任务,缺乏处理各种图像抠图任务的灵活性。此外,现有的图像抠图方法通常依赖用户引导的trimaps作为辅助输入,这对用户的交互使用带来了困扰。因此,开发一个能够准确估计alpha matte,同时能够灵活处理用户请求的模型是至关重要的。
  • 方法:提出一个名为Matting Anything Model(MAM)的模型,能估计图像中任意实例的alpha matte。MAM利用了最近的Segment Anything Model(SAM)框架,该框架支持灵活的提示,并输出任意目标实例的分割掩模。具体来说,MAM将SAM的特征图和掩模输出作为输入,并添加了一个轻量的Mask-to-Matte(M2M)模块来预测目标实例的alpha matte。
  • 优势:MAM相比之前的专门的图像抠图网络有几个显著的优点:(i) MAM能处理各种类型的图像抠图,包括语义抠图、实例抠图和指向图像抠图,只需要一个模型;(ii) MAM利用了SAM的特征图,采用一个轻量的 Mask-to-Matte(M2M)模块通过迭代细化预测alpha matte,该模块只有270万个可训练参数;(iii) 通过整合SAM,MAM将图像抠图的交互使用所需的用户干预简化为box,point或text prompt。实验结果表明,MAM在各种图像抠图基准测试中都达到了与专门抠图模型相当的性能。


Matting Anything Model(MAM)是一个能处理各种类型图像抠图任务的模型,利用了Segment Anything Model(SAM)的特征图,并采用一个轻量的Mask-to-Matte(M2M)模块来预测alpha matte,实验结果表明,MAM在各种图像抠图基准测试中都达到了与专门抠图模型相当的性能。

https://arxiv.org/abs/2306.05399 


图片
图片