LLAniMAtion: LLAMA Driven Gesture Animation

简介

在对话中，共语手势是一种重要的交流方式，可以提供上下文和社交线索。在角色动画中，适当和同步的手势可以增加逼真度，使交互式代理更具吸引力。历史上，自动生成手势的方法主要是基于音频的，利用音频信号中编码的韵律和与语音相关的内容。在本文中，我们尝试使用从文本中提取的LLAMA2特征来生成手势。我们与音频特征进行比较，并在客观测试和用户研究中探索了两种模态的组合。令人惊讶的是，我们的结果表明，仅使用LLAMA2特征的性能显着优于音频特征，并且包含两种模态与仅使用LLAMA2特征没有显着差异。我们证明了基于LLAMA2的模型可以生成节奏和语义手势，而无需任何音频输入，这表明LLM可以提供适合手势生成的丰富编码。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探究使用从文本中提取的LLM特征生成手势的可行性，比较LLM特征和音频特征在手势生成中的表现，并探索将两种模态相结合的效果。
关键思路

本论文使用从文本中提取的LLM特征进行手势生成，并发现LLM特征单独使用的表现优于音频特征，同时将两种模态相结合并没有显著提高手势生成的效果。
其它亮点

实验结果表明，LLM特征可以在没有音频输入的情况下生成节奏和语义手势，证明LLM特征是适合手势生成的丰富编码。此外，本论文还探索了手势生成模型的可解释性，并提出了一种基于关键词的可视化方法。
相关研究

在相关研究中，有许多研究探索使用音频特征进行手势生成，如《Audio-Driven Facial Animation by Joint End-to-End Learning of Pose and Emotion》。还有一些研究探索使用文本信息进行手势生成，如《Generating Iconic Gestures with Recurrent Neural Networks》。

LLAniMAtion: LLAMA Driven Gesture Animation

提问交流

提问交流