SpeechColab Leaderboard: An Open-Source Platform for Automatic Speech Recognition Evaluation

2024年03月13日
  • 简介
    在过去十年中,随着深度学习浪潮的兴起,自动语音识别(ASR)引起了广泛关注,导致出现了许多公开可用的ASR系统,这些系统正在积极地融入我们的日常生活。然而,由于各种重要的细微差别,对这些ASR系统进行公正和可复制的评估面临着挑战。在本文中,我们介绍了SpeechColab排行榜,这是一个通用的开源平台,旨在用于ASR评估。通过这个平台:(i)我们报告了一个全面的基准,揭示了ASR系统的最新技术现状,涵盖了开源模型和工业商业服务。 (ii)我们量化了评分流程中不同细微差别对最终基准结果的影响。这些差别包括大小写、标点符号、插入语、缩写、同义词使用、复合词等。这些问题在向端到端未来的过渡背景下变得更加重要。(iii)我们提出了一种实用的改进传统的Token-Error-Rate(TER)评估指标的方法,灵感来自Kolmogorov复杂度和归一化信息距离(NID)。这种适应称为改进的TER(mTER),实现了参考和假设的适当归一化和对称处理。通过将这个平台作为大规模测试场地,本研究证明了mTER相对于TER的鲁棒性和向后兼容性。SpeechColab排行榜可在https://github.com/SpeechColab/Leaderboard上访问。
  • 图表
  • 解决问题
    论文旨在解决自动语音识别(ASR)系统评估中的挑战,包括评估标准的细节问题和ASR系统的性能比较。
  • 关键思路
    通过引入SpeechColab Leaderboard平台和修改Token-Error-Rate(TER)评估指标,提出了一种新的ASR系统评估方法,包括对不同评估标准的影响进行量化分析。
  • 其它亮点
    通过对开源模型和商业服务的综合评估,揭示了当前ASR系统的最新技术水平;提出了一种新的评估指标mTER,可以更好地对参考和假设进行对称处理;SpeechColab Leaderboard平台是一个通用的、开源的ASR系统评估平台,可用于大规模测试和性能比较。
  • 相关研究
    最近的相关研究包括《A Survey of Deep Learning for Speech Recognition》、《End-to-End Speech Recognition Models》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论