- 简介本文提出了一种自动将舞蹈视频分割成每个动作的方法,目前该过程是由专家手动完成的,需要大量的工作量。即使社交媒体上有许多舞蹈视频(例如TikTok和YouTube),对于人们,尤其是新手来说,随意观看短视频片段以练习舞蹈编排仍然很困难。我们首先从视频中提取视觉和音频特征:前者是从视频中舞者的关键点计算出来的,后者是从视频中音乐的Mel频谱图计算出来的。接下来,这些特征被传递给一个时间卷积网络(TCN),并通过选择网络输出的峰值来估计分割点。为了建立我们的训练数据集,我们在AIST舞蹈视频数据库中对舞蹈视频进行了分割点注释,该数据库是一个共享数据库,包含原始的街舞视频和版权清除的舞蹈音乐。评估研究表明,所提出的方法(即结合视觉和音频特征)可以高精度地估计分割点。此外,我们开发了一个应用程序,以帮助舞者使用所提出的方法练习编排。
- 图表
- 解决问题自动将舞蹈视频分段为每个动作,以便更容易地理解舞蹈编排。然而,目前这个过程需要专家手动完成,需要大量的时间和精力。本论文旨在提出一种自动分割舞蹈视频的方法。
- 关键思路本论文提出了一种将视觉和音频特征结合的方法,通过Temporal Convolutional Network (TCN)来估计分割点。
- 其它亮点论文使用了AIST舞蹈视频数据库进行训练和评估,结果表明该方法能够高精度地估计分割点。同时,论文还开发了一个应用程序来帮助舞者练习编排。
- 在相关研究方面,最近也有一些类似的工作,例如《DanceNet: 用于舞蹈视频生成和定位的深度学习方法》。
沙发等你来抢
去评论
评论
沙发等你来抢