播客已成为广受欢迎的故事讲述、新闻和娱乐媒介。然而,没有字幕的播客对听力受损、聋人或盲聋人来说是不可访问的。自动生成播客字幕的可读性和准确性是一个挑战。苹果播客目录包含数百万集,使用自动语音识别(ASR)模型进行转录。为了评估ASR输出的质量,会将少量人工生成的参考字幕与相应的ASR字幕进行比较。行业标准的字幕准确率衡量指标——词错误率(WER)缺乏细腻度,它对所有错误(插入、删除和替换)一视同仁,不论其对可读性的影响如何。此外,参考文本具有主观性,基于人工转录员的理解。
本专栏通过快照技术转载,仅保留核心内容
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢