- 简介本文介绍了一个创新性的任务,旨在为说话者和听众生成三维的整体人体动作,以便更好地研究人类交流。我们的方法的核心是将分解方法应用到音频特征上,结合文本语义信息,从而更好地生成逼真且协调的动作。我们分别对说话者和听众的整体动作进行了 VQ-VAE 训练。我们考虑了说话者和听众之间的实时相互影响,并提出了一种新的链式变换器自回归模型,专门设计用于有效地表征现实世界中的交流情境,可以同时生成说话者和听众的动作。这些设计确保了我们生成的结果既协调又多样化。我们的方法在两个基准数据集上展示了最先进的性能。此外,我们还介绍了 HoCo 整体交流数据集,这是未来研究的宝贵资源。我们的 HoCo 数据集和代码将在接受后发布供研究目的使用。
- 图表
- 解决问题本论文旨在解决人类交流中3D全局人体动作生成的问题,通过将音频特征和文本语义信息分离,提出了一种新的因式分解方法,同时训练演讲者和听众的VQ-VAE,并考虑了演讲者和听众之间的实时相互影响。
- 关键思路论文的关键思路是采用链式变压器自回归模型,以有效地刻画真实世界中的交流场景,同时生成演讲者和听众的动作,从而实现协调和多样化的结果。
- 其它亮点论文在两个基准数据集上展示了最先进的表现,同时介绍了HoCo全面沟通数据集,这是未来研究的宝贵资源。论文开源了HoCo数据集和代码。
- 最近的相关研究包括:《End-to-End Learning of Neural Machine Translation》、《Attention Is All You Need》、《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》等。
沙发等你来抢
去评论
评论
沙发等你来抢