Audio-driven High-resolution Seamless Talking Head Video Editing via StyleGAN

简介

这篇论文试图通过两个模块解决音频驱动下的说话人头像视频编辑方法所面临的视觉效果差的限制。第一个模块是一个音频到关键点的模块，包括交叉重建情感分离和对齐网络模块。它通过从语音预测相应的情感关键点来弥合语音和面部动作之间的差距。第二个模块是一个基于关键点的编辑模块，通过StyleGAN编辑面部视频。它旨在生成由输入音频的情感和内容组成的无缝编辑视频。广泛的实验证实，与现有技术相比，我们的方法提供了高分辨率、高视觉质量的视频。
图表
解决问题

本文旨在通过两个模块解决音频驱动的说话头部视频编辑中存在的视觉效果差的问题。第一个模块是一个音频到关键点的模块，包括交叉重构情感分离和对齐网络模块。它通过从语音中预测相应的情感关键点来弥合语音和面部动作之间的差距。第二个基于关键点的编辑模块通过StyleGAN编辑面部视频，旨在从输入音频中生成由情感和内容组成的无缝编辑视频。
关键思路

本文的关键思路是通过音频到关键点的模块和基于关键点的编辑模块来提高音频驱动的说话头部视频编辑的视觉效果。
其它亮点

本文的实验表明，相比于现有方法，我们的方法提供了高分辨率、高视觉质量的无缝编辑视频。本文使用了公开数据集，但并未开源代码。进一步研究可以探索如何在更广泛的场景中使用该方法。
相关研究

最近在这个领域中的相关研究包括：1）“Audio-driven Talking Head Video Synthesis via Self-Supervised Training”；2）“Few-Shot Adversarial Learning of Realistic Neural Talking Head Models”；3）“Talking-head Anime from a Single Image with Lightweight Generative Adversarial Networks”。

Audio-driven High-resolution Seamless Talking Head Video Editing via StyleGAN

评论