- 简介呼吸音频,如咳嗽和呼吸声,对于广泛的医疗应用具有预测能力,但目前尚未充分探索。对于这些应用的主要问题在于,很难收集大量标记的任务特定数据来进行模型开发。预先使用未标记数据进行预训练的通用呼吸声学基础模型将提供吸引人的优势,并可能解决这个难题。然而,考虑到医疗应用的安全关键性,对于任何提出的基础模型解决方案,确保开放性和可复制性至关重要。为此,我们引入了OPERA,一种开放呼吸声学基础模型预训练和基准测试系统,作为第一个回答这个需求的方法。我们策划了大规模的呼吸音频数据集(约136K个样本,440小时),预训练了三个开创性的基础模型,并建立了一个由19个下游呼吸健康任务组成的基准测试,用于评估。我们的预训练模型表现出卓越的性能(针对16个任务中的现有声学模型进行预训练),并具有泛化能力(适用于未见过的数据集和新的呼吸音频模态)。这凸显了呼吸声学基础模型的巨大潜力,并鼓励更多使用OPERA作为开放资源加速呼吸音频健康研究的研究。该系统可从https://github.com/evelyn0414/OPERA访问。
- 图表
- 解决问题试图解决呼吸音频数据集标注困难的问题,提出利用预训练的基础模型解决呼吸音频数据的预测任务,并确保开放性和可复制性。
- 关键思路论文提出了OPERA系统,使用未标记的数据进行预训练,构建了三个呼吸音频基础模型,并在19个下游呼吸健康任务中进行了评估,展示了预训练模型在性能和泛化性方面的优势。
- 其它亮点论文使用了大规模的呼吸音频数据集,开发了OPERA系统,提出了预训练呼吸音频基础模型的思路,并在19个任务中进行了评估。实验结果表明,预训练模型在性能和泛化性方面都表现优异,这为呼吸音频在健康领域的应用提供了更好的基础。OPERA系统代码已经开源。
- 相关研究包括利用深度学习进行呼吸音频分类、利用呼吸音频进行疾病诊断等。其中,论文对比了预训练模型和使用通用音频进行预训练的模型在不同任务上的表现。
沙发等你来抢
去评论
评论
沙发等你来抢