论文标题:UniColor: A Unified Framework for Multi-Modal Colorization with Transformer

论文链接:https://arxiv.org/abs/2209.11223

提出了第一个统一框架 UniColor 以支持多种模式的着色,包括无条件和有条件的模式,例如笔画、示例、文本,甚至它们的混合。没有为每种类型的条件学习单独的模型,而是引入了一个两阶段着色框架,用于将各种条件合并到一个模型中。第一阶段,多模态条件被转换为提示点的通用表示。特别是提出了一种新的基于 CLIP 的方法来将文本转换为提示点。第二阶段,提出了一个由 Chroma-VQGAN 和 Hybrid-Transformer 组成的基于 Transformer 的网络,以生成以提示点为条件的多样化和高质量的着色结果。定性和定量比较都表明,方法在每种控制模式中都优于最先进的方法,并进一步实现了以前不可行的多模式着色。此外,设计了一个交互界面,展示了方法在实际使用中的有效性,包括自动着色、混合控制着色、局部重新着色和迭代颜色编辑。

内容中包含的图片若涉及版权问题,请及时与我们联系删除