Audio Matters Too! Enhancing Markerless Motion Capture with Audio Signals for String Performance Capture

简介

本文探讨了非标记多模式人体动作捕捉的问题，尤其是针对弦乐演奏的问题，其中涉及到微妙的手弦接触和复杂的动作。为了实现这个目标，我们首先收集了一个数据集，称为String Performance Dataset（SPD），其中包括大提琴和小提琴演奏的视频，从多达23个不同视角拍摄，包括音频信号和身体、手、乐器和弓的详细三维动作注释。此外，为了获取详细的运动注释，我们提出了一个音频引导的多模式动作捕捉框架，明确地将从音频信号中检测到的手弦接触纳入解决详细手姿势的范畴。这个框架作为一个基线，完全以无标记方式进行弦乐表演捕捉，不对演奏者施加任何外部设备，消除了在这种微妙的动作中引入扭曲的可能性。我们认为，表演者的动作，特别是产生声音的手势，包含着微妙的信息，通常难以通过视觉方法推断和提取，但可以从音频提示中推断和提取。因此，我们通过创新的音频引导方法，同时澄清了表演者和乐器之间的接触关系，来优化基于视觉的动作捕捉结果。我们验证了所提出的框架，并进行了消融研究以证明其有效性。我们的结果优于当前最先进的基于视觉的算法，强调了用音频模态增强视觉动作捕捉的可行性。据我们所知，SPD是第一个涵盖多模式、大规模收集的音乐演奏数据集，涵盖了微妙的手部运动细节。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

论文旨在解决无标记多模态人体动作捕捉的问题，特别是针对弦乐演奏的细节手-弦接触和复杂运动。同时，也提出了一个新的数据集（SPD）。

关键思路

提出了一种基于音频引导的多模态运动捕捉框架，通过音频信号检测手-弦接触来解决详细的手部姿态问题，同时消除了在这种微妙运动中引入扭曲的潜力。

其它亮点

论文提出的音频引导多模态运动捕捉框架在实验中表现出了很好的效果，超过了当前基于视觉的最先进算法。SPD数据集是第一个涵盖大规模多模态弦乐演奏细节的数据集。

Audio Matters Too! Enhancing Markerless Motion Capture with Audio Signals for String Performance Capture

提问交流

提问交流