- 简介最近基于Transformer的自动语音识别模型实现了低于4%的词错误率,超过了人类标注员的准确率,但它们需要大量的服务器资源,导致较大的碳足迹。自动语音识别传统的基于服务器的架构也存在隐私问题,同时由于网络依赖性而存在可靠性和延迟问题。相比之下,基于设备的(边缘的)自动语音识别增强了隐私,提高了性能,并通过有效平衡特定应用程序的能量使用和准确性来促进可持续性。本研究考察了在NVIDIA Jetson Orin Nano上进行各种自动语音识别模型推理的量化、内存需求和能量消耗对性能的影响。通过分析使用FP32、FP16和INT8量化的模型在清洁和嘈杂数据集上的WER和转录速度,我们突出了准确性、速度、量化、能源效率和内存需求之间的关键权衡。我们发现,将精度从FP32更改为FP16可以将不同模型的音频转录的能量消耗减半,而性能降低最小。更大的模型大小和参数数量既不能保证更好的抗噪声能力,也不能预测给定转录负载的能量消耗。这些以及其他几项发现为在能量和内存受限环境下优化自动语音识别系统提供了新的见解,这对于开发高效的基于设备的自动语音识别解决方案至关重要。本文中重现结果所需的代码和输入数据已经开源并可在[https://github.com/zzadiues3338/ASR-energy-jetson]上获得。
- 图表
- 解决问题本论文旨在研究在NVIDIA Jetson Orin Nano上使用不同精度量化的ASR模型的性能,以及其对能源消耗和内存需求的影响。研究旨在为在能源和内存受限环境下优化ASR系统提供新的见解。
- 关键思路本论文的关键思路是通过在干净和嘈杂的数据集上比较使用FP32、FP16和INT8量化的不同ASR模型的性能,来平衡准确性、速度、量化和能源效率之间的权衡。
- 其它亮点本论文发现,将精度从FP32降至FP16可以将音频转录的能源消耗减少一半,同时性能下降较小。较大的模型大小和参数数量既不能保证更好的噪声鲁棒性,也无法预测给定转录负载的能源消耗。研究使用的数据集和代码已经开源。
- 最近的相关研究包括使用不同的量化方法来优化ASR模型的能源效率,以及使用其他设备(如Raspberry Pi)来实现边缘ASR。相关论文包括“Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference”和“End-to-End Speech Recognition on Raspberry Pi”.
沙发等你来抢
去评论
评论
沙发等你来抢