RepAugment: Input-Agnostic Representation-Level Augmentation for Respiratory Sound Classification

简介

最近，人工智能的发展使其成为医疗助手的民主化部署成为可能。虽然来自大规模视觉和音频数据集的预训练模型已经证明可以推广到此任务，但令人惊讶的是，没有研究探索预训练语音模型，因为作为人类产生的声音，它们直观上更接近肺部声音。本文探讨了预训练语音模型在呼吸音分类中的有效性。我们发现，语音和肺音样本之间存在表征差距，为了弥合这一差距，数据增强是必不可少的。然而，用于音频和语音的最广泛使用的增强技术SpecAugment需要二维谱图格式，并且不能应用于预训练于语音波形的模型。为了解决这个问题，我们提出了RepAugment，这是一种输入不可知的表示级增强技术，它优于SpecAugment，但也适用于使用波形预训练模型的呼吸音分类。实验结果表明，我们的方法优于SpecAugment，对少数疾病类别的准确率有显著提高，最高可达7.14%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探讨使用预训练语音模型进行呼吸音分类的有效性，以及如何解决语音与肺部音频之间的特征差异问题。
关键思路

提出了一种适用于预训练语音波形模型的输入级别数据增强技术RepAugment，并证明其在呼吸音分类中的有效性优于传统的SpecAugment技术。
其它亮点

论文使用了两个数据集进行实验，证明了RepAugment技术的有效性，并且在少数疾病分类方面取得了7.14%的提升。此外，论文还提出了一种新的方法来解决语音与肺部音频之间的特征差异问题。
相关研究

最近相关研究包括：1. "A comparison of data augmentation techniques for classification of lung sounds using convolutional neural networks"; 2. "Respiratory Sound Classification using Convolutional Neural Network with Data Augmentation"。

RepAugment: Input-Agnostic Representation-Level Augmentation for Respiratory Sound Classification

提问交流

提问交流