pix2gestalt: Amodal Segmentation by Synthesizing Wholes

2024年01月25日
  • 简介
    我们介绍了pix2gestalt,这是一个用于零样本暗通道分割的框架,它学习估计仅在遮挡后部分可见的整个物体的形状和外观。通过利用大规模扩散模型并将它们的表示转移到此任务中,我们学习了一个条件扩散模型,用于在具有挑战性的零样本情况下重建整个物体,包括打破自然和物理先验的艺术等例子。我们使用一个合成策划的数据集作为训练数据,其中包含遮挡的物体和它们的整体对应物。实验表明,我们的方法在已建立的基准测试中优于监督基线。此外,我们的模型可以用于显著提高现有物体识别和三维重建方法在存在遮挡的情况下的性能。
  • 图表
  • 解决问题
    本文旨在解决零样本遮挡物体分割问题,即学习估计部分遮挡物体的整体形状和外观。
  • 关键思路
    本文提出了pix2gestalt框架,利用大规模扩散模型的表示学习,学习条件扩散模型以重建整个物体。使用合成的数据集作为训练数据,证明了该方法在已有基准测试中优于有监督的基线模型,并且可以在存在遮挡的情况下显著提高现有物体识别和3D重建方法的性能。
  • 其它亮点
    本文的亮点包括:使用大规模扩散模型的表示学习,提出了条件扩散模型以重建整个物体;使用合成的数据集作为训练数据,证明了该方法在已有基准测试中优于有监督的基线模型;该模型可以在存在遮挡的情况下显著提高现有物体识别和3D重建方法的性能。
  • 相关研究
    在这个领域中,最近的相关研究包括:1)Zero-Shot Amodal Segmentation via Binary Segmentation Trees;2)Learning to Learn from Synthetic to Real World;3)Learning to Segment Every Thing。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论