Control Color: Multimodal Diffusion-based Interactive Image Colorization

2024年02月16日
  • 简介
    尽管存在许多着色方法,但仍存在一些限制,例如缺乏用户交互、局部着色不灵活、不自然的颜色渲染、颜色变化不足和颜色溢出。为了解决这些问题,我们介绍了Control Color (CtrlColor),这是一种多模态着色方法,利用预先训练的稳定扩散 (SD) 模型,在高度可控的交互式图像着色方面具有很大的潜力。尽管已经提出了几种基于扩散的方法,但支持多种模态的着色仍然很困难。在本研究中,我们旨在解决无条件和有条件的图像着色 (文本提示、笔画、示例) 以及统一框架内的颜色溢出和不正确的颜色。具体而言,我们提出了一种有效的方法来编码用户笔画,以实现精确的局部颜色操作,并采用实用的方法来约束颜色分布,类似于示例。除了接受文本提示作为条件外,这些设计还增加了我们方法的多样性。我们还引入了一种基于自注意力和内容引导的可变形自编码器的新模块,以解决长期存在的颜色溢出和不准确着色的问题。广泛的比较表明,我们的模型在质量和数量上均优于最先进的图像着色方法。
  • 图表
  • 解决问题
    CtrlColor试图解决图像上色方法中存在的一些问题,如缺乏用户交互、局部上色不够灵活、颜色渲染不自然、颜色变化不足以及颜色溢出等。该论文提出了一种多模式的上色方法,旨在解决这些问题。
  • 关键思路
    CtrlColor采用了基于预训练的稳定扩散模型,实现高度可控的交互式图像上色。该方法支持无条件和有条件图像上色,并采用有效的方式对用户笔画进行编码,以实现精确的局部颜色操作。同时,该方法还引入了一种基于自注意力和内容引导可变形自编码器的新模块,以解决颜色溢出和不准确着色的问题。
  • 其它亮点
    CtrlColor在多个数据集上进行了实验,结果表明其在质量和准确性上均优于当前最先进的图像上色方法。此外,该论文还提供了开源代码,方便其他研究者使用和扩展。值得进一步研究的是,该方法是否可以应用于其他领域,如视频上色等。
  • 相关研究
    最近在图像上色领域中还有一些相关研究,如:《Deep Exemplar-based Colorization》、《Colorful Image Colorization》、《Scribbler: Controlling Deep Image Synthesis with Sketch and Color》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论