SpeechColab Leaderboard: An Open-Source Platform for Automatic Speech Recognition Evaluation

简介

在过去十年中，随着深度学习浪潮的兴起，自动语音识别（ASR）引起了广泛关注，导致出现了许多公开可用的ASR系统，这些系统正在积极地融入我们的日常生活。然而，由于各种重要的细微差别，对这些ASR系统进行公正和可复制的评估面临着挑战。在本文中，我们介绍了SpeechColab排行榜，这是一个通用的开源平台，旨在用于ASR评估。通过这个平台：（i）我们报告了一个全面的基准，揭示了ASR系统的最新技术现状，涵盖了开源模型和工业商业服务。（ii）我们量化了评分流程中不同细微差别对最终基准结果的影响。这些差别包括大小写、标点符号、插入语、缩写、同义词使用、复合词等。这些问题在向端到端未来的过渡背景下变得更加重要。（iii）我们提出了一种实用的改进传统的Token-Error-Rate（TER）评估指标的方法，灵感来自Kolmogorov复杂度和归一化信息距离（NID）。这种适应称为改进的TER（mTER），实现了参考和假设的适当归一化和对称处理。通过将这个平台作为大规模测试场地，本研究证明了mTER相对于TER的鲁棒性和向后兼容性。SpeechColab排行榜可在https://github.com/SpeechColab/Leaderboard上访问。
图表
解决问题

论文旨在解决自动语音识别（ASR）系统评估中的挑战，包括评估标准的细节问题和ASR系统的性能比较。
关键思路

通过引入SpeechColab Leaderboard平台和修改Token-Error-Rate（TER）评估指标，提出了一种新的ASR系统评估方法，包括对不同评估标准的影响进行量化分析。
其它亮点

通过对开源模型和商业服务的综合评估，揭示了当前ASR系统的最新技术水平；提出了一种新的评估指标mTER，可以更好地对参考和假设进行对称处理；SpeechColab Leaderboard平台是一个通用的、开源的ASR系统评估平台，可用于大规模测试和性能比较。
相关研究

最近的相关研究包括《A Survey of Deep Learning for Speech Recognition》、《End-to-End Speech Recognition Models》等。

SpeechColab Leaderboard: An Open-Source Platform for Automatic Speech Recognition Evaluation

评论