- 简介近期,视频生成技术在动作逼真度方面取得了令人印象深刻的进展,但往往忽略了以角色驱动的叙事任务,而这对于自动化的电影和动画生成至关重要。我们提出了“Talking Characters”这一更加贴近现实的任务,旨在直接从语音和文本生成角色对话动画。与仅限于面部区域的“Talking Head”不同,“Talking Characters”致力于生成一个或多个角色的完整肖像。在本文中,我们提出了MoCha,这是首个能够生成对话角色的模型。 为了确保视频与语音之间的精确同步,我们提出了一种语音-视频窗口注意力机制,该机制能够有效地对齐语音和视频标记。为了解决大规模带语音标注的视频数据集稀缺的问题,我们引入了一种联合训练策略,利用带语音标注和带文本标注的视频数据进行训练,显著提升了模型在多样化角色动作上的泛化能力。 此外,我们设计了带有角色标签的结构化提示模板,首次实现了基于轮次对话的多角色交互,使AI生成的角色能够在上下文感知的情况下进行具备电影连贯性的对话。大量的定性和定量评估,包括人类偏好研究和基准测试对比,表明MoCha为AI生成的电影叙事设定了新的标准,在逼真度、表现力、可控性和泛化能力方面均表现出色。
- 图表
- 解决问题论文试图解决生成具有完整身体动画的多角色对话视频的问题,尤其是从文本和语音输入生成连贯且逼真的角色动画。这是一个新问题,因为大多数现有研究集中在面部表情(如Talking Head)上,而忽略了全身动画和多角色交互。
- 关键思路MoCha通过引入一种新的任务——Talking Characters,解决了这一问题。关键思路包括:1) 提出一种语音-视频窗口注意力机制以确保语音与动画的精确同步;2) 设计联合训练策略,结合语音标注和文本标注的视频数据以缓解大规模数据稀缺问题;3) 使用结构化提示模板支持多角色轮流对话,增强情境感知和叙事连贯性。相比现有研究,MoCha首次实现了全身动画生成,并提升了多角色互动的真实感和表达力。
- 其它亮点论文设计了大量定性和定量实验来验证模型性能,包括人类偏好测试和基准比较。实验使用了多样化数据集,涵盖不同风格的角色动作和对话场景。代码尚未开源,但作者提出了多个值得深入研究的方向,例如更复杂的角色情感表达、跨模态对齐优化以及更大规模数据集的构建。
- 近期相关研究包括:1) Talking Face Generation(如Wav2Lip和Speech2Gesture),专注于面部或局部动作生成;2) 文本到视频生成(如Phenaki和VideoLM),主要关注通用视频生成而非特定角色动画;3) 多模态学习(如ALIGN和CLIP),为语音和文本驱动的视频生成提供了基础技术。其他类似研究包括《Text-to-Video Generation with Diffusion Models》和《Speech-driven Gesture Synthesis with Transformers》。
沙发等你来抢
去评论
评论
沙发等你来抢