Zippo: Zipping Color and Transparency Distributions into a Single Diffusion Model

2024年03月17日
  • 简介
    除了文本到图像扩散模型在生成高质量图像方面的优越性外,最近的研究尝试揭示其在适应学习语义知识到视觉感知任务方面的潜力。在这项工作中,我们不是将生成性扩散模型转化为视觉感知模型,而是探索保留生成能力并进行感知适应。为了实现这一点,我们提出了Zippo,一个统一的框架,通过将颜色和透明度分布压缩到单个扩散模型中,通过将扩散潜在变量扩展为RGB图像和Alpha遮罩的联合表示来实现。通过交替选择一种模态作为条件,然后将扩散过程应用于对应的模态,Zippo能够从Alpha遮罩生成RGB图像,并从输入图像预测透明度。除了单模态预测外,我们提出了一种模态感知噪声重新分配策略,以进一步赋予Zippo在文本指导下同时生成RGB图像及其对应的Alpha遮罩的能力。我们的实验展示了Zippo在文本条件下高效生成透明图像的能力,并呈现了Matte-to-RGB和RGB-to-Matte翻译的合理结果。
  • 图表
  • 解决问题
    本文旨在探索将生成扩散模型转化为视觉感知模型的可能性,提出了Zippo框架,旨在通过将颜色和透明度分布压缩成单个扩散模型,实现透明图像的高效生成和预测。
  • 关键思路
    Zippo框架通过将扩散潜在空间扩展为RGB图像和alpha遮罩的联合表示来实现透明图像的高效生成和预测。通过交替选择一种模态作为条件,然后将扩散过程应用于对应的模态,Zippo能够从alpha遮罩生成RGB图像,并从输入图像预测透明度。
  • 其它亮点
    该论文的亮点在于提出了Zippo框架,该框架具有高效的文本条件透明图像生成能力,并能够在文本指导下联合生成RGB图像和相应的alpha遮罩。实验结果表明Zippo具有很好的性能,并且可以用于Matte-to-RGB和RGB-to-Matte转换。
  • 相关研究
    与本文相关的研究包括:1)利用生成对抗网络生成透明图像的研究;2)使用扩散模型进行图像生成的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论