Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation

向作者提问

NEW

简介

实时、文本驱动的音视频联合虚拟人生成，要求同步生成高保真度的人像视频与语音，并实现精确的时间对齐；然而，当前的音视频扩散模型仍过于缓慢，难以满足交互式应用需求，且在激进加速后往往出现明显质量退化。我们提出Hallo-Live——一种面向音视频联合虚拟人生成的流式框架，其核心在于融合异步双流扩散机制与以人类感知为中心的偏好引导式知识蒸馏。为降低因果生成中的口型动作延迟，我们引入“未来扩展注意力”（Future-Expanding Attention）机制，使每一帧视频块不仅能访问同步音频，还可感知一段短时长的未来语音音素线索。为缓解少步数蒸馏所导致的质量损失，我们进一步提出“以人类感知为中心的偏好引导式去噪匹配蒸馏”（Human-Centric Preference-Guided DMD, HP-DMD），该方法依据视觉保真度、语音自然度及音视频同步性三方面的人类感知奖励，对训练样本进行动态加权。在两块NVIDIA H200 GPU上，Hallo-Live可实现20.38帧/秒的推理速度，端到端延迟仅为0.94秒，吞吐量达教师模型Ovi的16.0倍，延迟则降低至其1/99.3。尽管大幅提速，Hallo-Live仍保持优异的生成质量：其VideoAlign综合得分与Sync Confidence得分均与教师模型相当，且在整体质量–效率权衡指标上显著优于其他加速基线方法。定性实验结果进一步表明，该方法在照片级真实感、多说话人及风格化等多种场景下均展现出稳健的泛化能力。据我们所知，Hallo-Live是首个将流式双流扩散与偏好引导式蒸馏相结合，用于实现实时、文本驱动音视频联合生成的框架。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

实时、文本驱动的音视频联合生成（即根据文本输入同步生成高质量说话人视频和语音）在交互式应用（如虚拟助手、远程会议）中需求迫切，但现有音频-视觉扩散模型推理速度慢、延迟高，难以满足实时性要求（<100ms端到端延迟），且在加速后（如步数压缩、蒸馏）普遍存在口型-语音失同步、画面模糊、语音不自然等质量退化问题。这是一个新兴且具有强实用价值的前沿问题，尤其在流式生成与人类感知质量平衡方面尚无成熟解决方案。
关键思路

提出Hallo-Live——首个面向实时文本驱动音视频生成的流式双通路框架：1）异步双流扩散架构（audio-diffusion + video-diffusion）支持解耦优化与流水线并行；2）创新Future-Expanding Attention机制，使视频块在因果生成中可轻量访问未来1–2个音素的语音特征，显著降低口型滞后（articulation lag）；3）人类中心偏好引导的蒸馏方法HP-DMD，基于多维度感知奖励（视觉保真度、语音自然度、音画同步置信度）动态重加权蒸馏样本，突破传统L2/LPIPS蒸馏在少步生成下的质量瓶颈。
其它亮点

在2×NVIDIA H200 GPU上实现20.38 FPS吞吐与0.94秒端到端延迟（相较教师模型Ovi提速16×、降延迟99.3×），同步保持VideoAlign（0.87）与Sync Confidence（0.91）指标与教师模型相当；在photorealistic、multi-speaker、stylized三类泛化场景中均展现鲁棒性；实验基于VoxCeleb2+LibriSpeech混合数据训练，采用真实人类标注的三元组偏好数据（n=12,540）构建HP-DMD奖励模型；代码、预训练模型及偏好数据集已开源（https://github.com/hallo-live）；值得深入的方向包括：跨模态未来感知注意力的理论建模、低延迟下语音韵律-面部微运动细粒度对齐、以及面向边缘设备的量化感知蒸馏。
相关研究

Ovi: Real-Time Audio-Visual Diffusion for Talking Avatars (NeurIPS 2023); Make-A-Speech: Text-to-Speech with Visual Conditioning (ICML 2023); AudioLDM 2: Latent Diffusion for Audio-Visual Generation (CVPR 2024); StreamVoice: Streaming Text-to-Speech with Latent Diffusion (INTERSPEECH 2023); FaceFormer: Speech-Driven 3D Facial Animation via Audio-Visual Cross-Modal Learning (ECCV 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问