语音识别｜语音识别中利用预训练语言模型生成人类可读文本

【论文】Generating Human Readable Transcript for Automatic Speech Recognition with Pre-trained Language Model 【作者】Junwei Liao • Yu Shi • Ming Gong • Linjun Shou • Sefik Eskimez • Liyang Lu • Hong Qu • Michael Zeng 【单位】Microsoft STCA NLP Group，University of Electronic Science and Technology of China(电子科技大学)，Microsoft Cognitive Services Research Group 【时间】02/22/2021 【收录】Accepted in 2021 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2021) 【推荐理由】本文利用预训练模型增强语音识别的准确性，将RoBERT引入到语音识别当中，显著提高了WER和BLEU值。在本工作中，作者首先讨论了语音识别中存在的问题，例如说话者带有的口语表达和模型检测的失误会导致识别准确率的下降。由于标准测评数据集的缺失，作者利用Metadata Extraction (MDE) corpus构建了一个任务相关的数据集。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

语音识别｜语音识别中利用预训练语言模型生成人类可读文本

评论列表

评论