EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars

简介

使用由视觉信号激活的头像已经变得越来越流行，特别是在交叉驾驶综合中，驾驶员与动画角色不同，这是一种具有挑战性但非常实用的方法。最近提出的MegaPortraits模型在这个领域展示了最先进的结果。我们对这个模型进行了深入的研究和评估，特别关注它的潜在空间，以了解其表情描述符的能力，并揭示了它表达强烈面部动作的能力存在一些限制。为了解决这些限制，我们提出了训练流程和模型架构的实质性改变，引入了我们的EMOPortraits模型，其中我们： - 提高了模型对于忠实支持强烈、不对称面部表情的能力，在情感转移任务中取得了新的最先进结果，超过了以前的方法，无论是在指标还是质量方面。 - 将语音驱动模式引入我们的模型，实现了音频驱动的面部动画的顶尖性能，使得通过多种模态，包括视觉信号、音频或两者的混合，驱动源身份成为可能。 - 我们提出了一个新颖的多视角视频数据集，展示了各种强烈和不对称的面部表情，填补了现有数据集中缺乏这些数据的空白。
图表
解决问题

本论文试图提高头像动画模型在表达强烈、不对称的面部表情方面的能力，并探索多模态驱动的头像动画模型。
关键思路

通过改进训练流程和模型架构，提出了EMOPortraits模型，该模型在情感转移任务中取得了最新的最佳结果，并在音频驱动的面部动画方面实现了最高级别的性能。
其它亮点

提出了EMOPortraits模型，该模型能够更好地表达强烈、不对称的面部表情，并在情感转移任务和音频驱动的面部动画方面取得了最新的最佳结果。提供了一个新的多视角视频数据集，用于填补现有数据集中缺少强烈、不对称面部表情的空白。
相关研究

最近的相关研究包括MegaPortraits模型和其他头像动画模型，如Deep Video Portraits和Neural Talking Heads。

EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars

评论