ConCLVD: Controllable Chinese Landscape Video Generation via Diffusion Model

向作者提问

NEW

简介

中国山水画是中国文化和艺术遗产的珍品，通过画家的深刻观察和想象展示了大自然的壮丽景象。受传统技术的限制，这些艺术作品在古代被限制为静态图像，将风景的动态和艺术情感的微妙之处留给了观众的想象力。最近，新兴的文本到视频（T2V）扩散方法在视频生成方面显示出了重要的潜力，为创造动态的中国山水画提供了希望。然而，这些模型在生成中国山水画视频方面面临着许多挑战，例如缺乏特定的数据集、艺术风格的复杂性和创造大量高质量视频的困难。在本文中，我们提出了CLV-HD（中国山水画视频-高清晰度），这是一个新颖的T2V数据集，用于生成中国山水画视频，以及ConCLVD（可控的中国山水画视频扩散），这是一个利用稳定扩散的T2V模型。具体而言，我们提出了一个运动模块，其中包含双重注意机制，以捕捉风景图像的动态变换，以及噪声适配器，以利用潜在空间中的无监督对比学习。在生成关键帧之后，我们采用光流进行帧插值，以增强视频的平滑性。我们的方法不仅保留了风景画的精髓，而且实现了动态转换，显著推进了艺术视频生成领域的发展。源代码和数据集可在https://anonymous.4open.science/r/ConCLVD-EFE3上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决中文山水画视频生成中的动态效果不足的问题，并提出了一种新的T2V数据集和模型，以实现高质量的中文山水画视频生成。
关键思路

论文提出了一种基于稳定扩散的T2V模型ConCLVD，其中包括动态模块和噪声适配器，以及使用光流进行帧插值以提高视频平滑度。
其它亮点

论文提出了一个新的T2V数据集CLV-HD，以解决缺乏特定数据集和艺术风格复杂性的问题。实验结果表明，ConCLVD模型不仅保留了山水画的本质特征，而且实现了动态转换，并在视频生成领域取得了显著的进展。研究者提供了源代码和数据集。
相关研究

最近的相关研究包括使用GAN生成艺术作品的研究，如《A Style-Based Generator Architecture for Generative Adversarial Networks》和《High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs》，以及使用T2V方法生成艺术视频的研究，如《Text-to-Video Generation for Compositional Scene Understanding》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问