- 简介人际交流就像一种精细的舞蹈,听者和说者同时互动以维持对话的动态。因此,生成听者非语言行为的有效模型需要理解双方的上下文和互动。本文提出了一个有效的框架,用于在双方互动中创建三维面部动作。现有的工作将听者视为对说者的声音和面部动作具有反应性行为的反射性代理。我们框架的核心是双向交互建模(DIM),这是一种预训练方法,通过掩蔽和对比学习联合建模说话者和听者的动作,以学习捕捉双向上下文的表示。为了实现非确定性行为的生成,我们通过VQ-VAE将听者和说者的动作编码为离散潜在表示。预训练模型进一步进行了微调以进行动作生成。广泛的实验证明了我们框架在生成听者动作方面的优越性,根据捕捉生成动作的多样性和逼真程度的定量指标,建立了新的最新技术水平。定性结果展示了所提出的方法在生成多样化和逼真的表情、眨眼和头部姿势方面的优越能力。
- 图表
- 解决问题论文旨在解决生成对话中听众非语言行为的问题,通过建立一个有效的框架来创建双方互动中的3D面部动作。
- 关键思路该论文提出了Dyadic Interaction Modeling(DIM)预训练方法,通过掩蔽和对比学习来共同建模发言者和听众的动作,以捕捉双方互动的上下文信息。同时,使用VQ-VAE将听众和发言者的动作编码成离散的潜在表示,以便生成非确定性行为。该预训练模型进一步进行微调以进行运动生成。
- 其它亮点论文在大量实验中展示了该框架在生成听众动作方面的卓越性能,并根据捕捉到的生成运动的多样性和逼真程度等定量指标,建立了新的最优结果。定性结果证明了该方法在生成不同的和逼真的表情,眨眼和点头等方面的优越性能。
- 最近的相关研究包括:'Generating Natural Dyadic Conversation via Mutual Learning Between Dialogue and Gaze Models','Learning to Generate Multimodal Conversational Responses via Hierarchical Reinforcement Learning'等。
沙发等你来抢
去评论
评论
沙发等你来抢