自动手语生成(SLP)系统必须生成真实的签名者照片,而最近出现的基于骨骼姿势序列的神经 SLP 似乎可被聋人成员所接受。本文提出的 SignGAN,是第一个可以直接将口语生成连续手语视频的 SLP 模型。研究人员采用具有混合密度网络(MDN)的变压器体系结构来处理从口语到骨骼姿势的翻译,然后引入姿势条件下的人体合成模型,根据骨骼姿势序列生成逼真的手语视频,实现从书面文字直接翻译真实签名的视频。
研究人员提出的基于关键点的损失函数,可以显著提高手的合成图像的质量,可以在关键点空间进行操作,以避免运动模糊引起的问题。此外,他们还介绍了一种可控视频生成方法,对大型、多样化的手语数据集进行训练,并提供在推断时控制签名人外观的功能。研究使用了从广播镜头中提取的八种不同手语译员的数据集,实验表明,SignGAN 在性能指标和人类感知研究方面明显优于其他方法。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢