这个框架能将人物视频转成动画,还是高清、高度可控的。

在社交网络、短视频平台上使用卡通头像录制视频是很多人喜欢的玩法,但我们也会发现一些问题,比如头像调整范围比较窄,和本人没有那么像等。

近日,来自新加坡南洋理工大学的一项相关研究在 reddit、推特上都收获了上千的点赞量。他们开发了一个能够进行可控高分辨率人像视频风格转换的框架——VToonify,在风格控制的灵活性、生成视频的质量、时间上的连贯性等方面都有着出色的表现。

 

 

你可以根据自己的需要灵活调整生成的风格类型以及卡通化的程度等指标:

 

 

 

 

从 demo 中可以看出,VToonify 生成的这些人像不仅具有高度可调的卡通风格,而且包含了人像的很多细节,有一种千人千面的感觉。因此,不少网友表示,有了这个工具,动画电影做起来岂不是很容易?

 

 

还有人畅想将其应用到 VR 领域。

 

 

当被问及能否当实时滤镜用时,作者表示:目前模型还很大,做到实时还需要一些工程努力。

 

 

论文概览

 

 

  • 论文链接:https://arxiv.org/pdf/2209.11224.pdf

  • 项目链接: https://github.com/williamyang1991/VToonify

  • demo 链接: https://huggingface.co/spaces/PKUWilliamYang/VToonify

  • colab 链接:https://colab.research.google.com/github/williamyang1991/VToonify/blob/master/notebooks/inference_playground.ipynb

生成高质量的艺术人像视频是计算机图形学和计算机视觉中的一个重要任务。虽然基于强大的 StyleGAN,研究者们已经提出了一系列成功的人像卡通模型,但这些面向图像的方法在应用于视频时存在明显的局限性,如固定帧大小、人脸对齐要求、缺少非面部细节和时间不一致等。

也就是说,一个高效的视频卡通化方法需要克服以下挑战:

  • 能够处理未对齐的人脸和不同的视频大小,以保持运动自然。增大视频尺寸或使用广角可以捕捉更多的信息,防止人脸移动出帧;

  • 为了匹配目前广泛使用的高清设备,生成的视频要有足够高的分辨率;

  • 要想构建一个实用的用户交互系统,新方法应该提供灵活的风格控制,让用户调整并选择自己喜欢的风格。

为了满足以上需求,研究者们提出了专门用于视频卡通化的混合框架——VToonify。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除