Investigating differences in lab-quality and remote recording methods with dynamic acoustic measures

2024年04月25日
  • 简介
    越来越多的语音研究使用从参与者自行在现有设备上录制的数据。虽然这样的录音很方便,但它们是否适合进行声学分析仍然存在疑问,特别是关于个体方法如何影响声学测量结果。我们使用Quantile广义加性混合模型(QGAMMs)来分析F0、强度和第一和第二共振峰的测量值,比较使用实验室标准录音方法(带外部麦克风的Zoom H6 Recorder)录制的文件与三种远程录音方法(1)智能手机上的Awesome Voice Recorder应用程序(AVR),(2)Zoom会议应用程序的默认设置(Zoom-default),以及(3)Zoom会议应用程序的“Turn on Original Sound”设置(Zoom-raw)。在长时间录音文件的过程中观察到Zoom方法的线性时间对齐问题。然而,对于话语长度的文件,这种差异并不显著。F0使用所有方法可靠地测量。强度和共振峰在不同方法之间呈现非线性差异,不能简单地进行校正。总体而言,AVR文件与H6的相似度最高,因此AVR被认为是比Zoom-default或Zoom-raw更可靠的录音方法。
  • 图表
  • 解决问题
    本论文旨在探究使用不同录音方法采集的数据对语音学研究中声学分析的影响,特别是长时间录音文件的影响。该问题在当前领域中尚未得到充分解决。
  • 关键思路
    论文采用Quantile广义加性混合模型(QGAMMs)分析了不同录音方法采集的语音数据,比较了F0、强度和第一、第二共振峰等声学特征的差异。结果表明,Awesome Voice Recorder应用程序(AVR)的录音文件与实验室标准录音方法(Zoom H6 Recorder)最相似,而Zoom-default和Zoom-raw的录音文件则存在非线性差异。F0的测量结果在所有方法中均可靠。
  • 其它亮点
    论文设计了实验,使用了不同的录音方法和数据集,并采用了Quantile广义加性混合模型进行分析。结果表明,AVR应用程序的录音文件最可靠。此外,论文还发现Zoom方法存在线性时间对齐问题。论文未提供开源代码。
  • 相关研究
    近年来,该领域的相关研究包括使用深度学习方法进行语音信号处理和分析,以及探究语音数据在跨语言和跨文化研究中的应用。相关论文包括《Deep Learning for Acoustic Modeling in Parametric Speech Generation: A Review》和《Cross-Linguistic and Cross-Cultural Applications of Speech Databases and Corpora》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论