LVCD: Reference-based Lineart Video Colorization with Diffusion Models

简介

我们提出了第一个基于参考线稿的视频着色扩散框架。与之前仅依靠图像生成模型逐帧着色的方法不同，我们的方法利用了大规模预训练的视频扩散模型来生成着色动画视频。这种方法可以产生更具时间一致性的结果，并且更适合处理大运动。首先，我们介绍了Sketch-guided ControlNet，它为微调图像到视频扩散模型提供了额外的控制，以实现可控的视频合成，从而使得生成的动画视频可以以线稿为条件。然后，我们提出了参考注意力机制，以促进从参考帧向包含快速和扩张运动的其他帧传输颜色。最后，我们提出了一种新的顺序采样方案，结合了Overlapped Blending Module和Prev-Reference Attention，以扩展视频扩散模型超出其原始的固定长度限制，用于长视频着色。定性和定量结果表明，我们的方法在帧和视频质量以及时间一致性方面显著优于现有技术。此外，我们的方法能够生成具有大运动的高质量、长时间一致的动画视频，这是之前的方法无法实现的。我们的代码和模型可在https://luckyhzt.github.io/lvcd上获得。
图表
解决问题

论文旨在提出一种基于参考的线描视频上色框架，解决单纯使用图像生成模型无法处理大运动量和缺乏时间一致性的问题。
关键思路

论文提出了一种利用大规模预训练视频扩散模型生成彩色动画视频的方法，通过引入Sketch-guided ControlNet、Reference Attention和Overlapped Blending Module等技术，实现了对线描视频的控制和时间一致性的提高。
其它亮点

论文的实验结果表明，该方法在帧质量、视频质量和时间一致性方面均优于现有技术，并且能够生成具有大运动量和时间一致性的高质量动画视频。此外，论文提供了代码和模型的开源资源。
相关研究

最近的相关研究包括：《Deep Exemplar-based Video Colorization》、《Deep Video Colorization with spatio-temporal Propagation》等。

LVCD: Reference-based Lineart Video Colorization with Diffusion Models

评论