- 简介在过去十年中,随着深度学习浪潮的兴起,自动语音识别(ASR)引起了广泛关注,导致出现了许多公开可用的ASR系统,这些系统正在积极地融入我们的日常生活。然而,由于各种重要的细微差别,对这些ASR系统进行公正和可复制的评估面临着挑战。在本文中,我们介绍了SpeechColab排行榜,这是一个通用的开源平台,旨在用于ASR评估。通过这个平台:(i)我们报告了一个全面的基准,揭示了ASR系统的最新技术现状,涵盖了开源模型和工业商业服务。 (ii)我们量化了评分流程中不同细微差别对最终基准结果的影响。这些差别包括大小写、标点符号、插入语、缩写、同义词使用、复合词等。这些问题在向端到端未来的过渡背景下变得更加重要。(iii)我们提出了一种实用的改进传统的Token-Error-Rate(TER)评估指标的方法,灵感来自Kolmogorov复杂度和归一化信息距离(NID)。这种适应称为改进的TER(mTER),实现了参考和假设的适当归一化和对称处理。通过将这个平台作为大规模测试场地,本研究证明了mTER相对于TER的鲁棒性和向后兼容性。SpeechColab排行榜可在https://github.com/SpeechColab/Leaderboard上访问。
- 图表
- 解决问题论文旨在解决自动语音识别(ASR)系统评估中的挑战,包括评估标准的细节问题和ASR系统的性能比较。
- 关键思路通过引入SpeechColab Leaderboard平台和修改Token-Error-Rate(TER)评估指标,提出了一种新的ASR系统评估方法,包括对不同评估标准的影响进行量化分析。
- 其它亮点通过对开源模型和商业服务的综合评估,揭示了当前ASR系统的最新技术水平;提出了一种新的评估指标mTER,可以更好地对参考和假设进行对称处理;SpeechColab Leaderboard平台是一个通用的、开源的ASR系统评估平台,可用于大规模测试和性能比较。
- 最近的相关研究包括《A Survey of Deep Learning for Speech Recognition》、《End-to-End Speech Recognition Models》等。
沙发等你来抢
去评论
评论
沙发等你来抢