- 简介我们提出了TRAMBA,一种适用于移动和可穿戴平台的混合变压器和Mamba架构,用于声学和骨传导语音增强。由于以下几个原因,骨传导语音增强在移动和可穿戴平台上一直难以采用:(i)数据收集需要大量人力,因此很少见;(ii)存在性能差距,即内存占用量为数百MB的最先进模型与适用于资源受限系统的方法之间存在性能差距。为了使TRAMBA适应基于振动的传感模式,我们使用广泛可用的音频语音数据集对TRAMBA进行预训练,然后用户使用少量骨传导数据进行微调。TRAMBA在PESQ和STOI方面的表现优于最先进的GAN模型,分别提高了7.3%和1.8%,内存占用量小了一个数量级,推理速度提高了高达465倍。我们将TRAMBA集成到实际系统中,并展示TRAMBA(i)通过需要更少的数据采样和传输,将可穿戴设备的电池寿命提高了高达160%;(ii)在嘈杂的环境中生成比空中语音更高质量的语音;(iii)内存占用量不到20.0 MB。
- 图表
- 解决问题本文提出了一种适用于移动和可穿戴平台的混合变压器和Mamba架构的TRAMBA,用于声学和骨传导语音增强。该论文试图解决数据收集困难、性能差异大等问题。
- 关键思路TRAMBA通过在广泛可用的音频语音数据集上进行预训练,然后使用少量的骨传导数据进行微调,适应振动传感模态,同时具有更小的内存占用和更快的推理速度。
- 其它亮点TRAMBA在PESQ和STOI上优于现有技术GAN,内存占用小于20.0 MB,推理速度提高了465倍。实验结果表明,TRAMBA可以提高可穿戴设备的电池寿命、在嘈杂的环境中生成更高质量的声音、比空中语音更好。
- 最近的相关研究包括Deep Feature Consistent Variational Autoencoder (DFC-VAE)、Deep Recurrent Attentive Writer (DRAW)和Deep Convolutional Generative Adversarial Networks (DCGAN)等。
沙发等你来抢
去评论
评论
沙发等你来抢