- 简介在对话中,共语手势是一种重要的交流方式,可以提供上下文和社交线索。在角色动画中,适当和同步的手势可以增加逼真度,使交互式代理更具吸引力。历史上,自动生成手势的方法主要是基于音频的,利用音频信号中编码的韵律和与语音相关的内容。在本文中,我们尝试使用从文本中提取的LLAMA2特征来生成手势。我们与音频特征进行比较,并在客观测试和用户研究中探索了两种模态的组合。令人惊讶的是,我们的结果表明,仅使用LLAMA2特征的性能显着优于音频特征,并且包含两种模态与仅使用LLAMA2特征没有显着差异。我们证明了基于LLAMA2的模型可以生成节奏和语义手势,而无需任何音频输入,这表明LLM可以提供适合手势生成的丰富编码。
-
- 图表
- 解决问题本论文旨在探究使用从文本中提取的LLM特征生成手势的可行性,比较LLM特征和音频特征在手势生成中的表现,并探索将两种模态相结合的效果。
- 关键思路本论文使用从文本中提取的LLM特征进行手势生成,并发现LLM特征单独使用的表现优于音频特征,同时将两种模态相结合并没有显著提高手势生成的效果。
- 其它亮点实验结果表明,LLM特征可以在没有音频输入的情况下生成节奏和语义手势,证明LLM特征是适合手势生成的丰富编码。此外,本论文还探索了手势生成模型的可解释性,并提出了一种基于关键词的可视化方法。
- 在相关研究中,有许多研究探索使用音频特征进行手势生成,如《Audio-Driven Facial Animation by Joint End-to-End Learning of Pose and Emotion》。还有一些研究探索使用文本信息进行手势生成,如《Generating Iconic Gestures with Recurrent Neural Networks》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流