Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models

2024年07月02日
  • 简介
    最近的研究表明,大型语言模型(LLMs)在自动语音识别(ASR)的纠错方面非常有效。然而,大部分研究都集中在英语上。本文将注意力转向中文。首先,我们构建了一个专门针对中文ASR纠错的基准数据集,名为“Chinese Hypotheses Paradise dataset”(ChineseHP),包含724K个假设-转录对,涵盖了广泛的场景并提出了显著的挑战。随后,我们使用该数据集对直接提示和微调预训练LLMs进行了初步评估。此外,我们提出了一种简单的拼音正则化提示的方法,直接从文本假设中转录拼音。实验结果表明,与没有正则化的模型相比,拼音正则化始终能够提高LLMs的纠错能力。该数据集可在网站上获取。
  • 图表
  • 解决问题
    本论文旨在解决中文语音识别中的错误校正问题,并构建了一个专门针对中文ASR错误校正的基准数据集。
  • 关键思路
    论文提出了一种使用大型语言模型(LLMs)进行中文ASR错误校正的方法,并探索了Pinyin正则化对于错误校正的影响。
  • 其它亮点
    论文构建了一个名为Chinese Hypotheses Paradise dataset(ChineseHP)的基准数据集,用于评估直接提示和微调预训练LLMs的性能。实验结果表明,使用Pinyin正则化可以显著提高LLMs的错误校正能力。数据集已经公开。
  • 相关研究
    最近的相关研究主要集中在英语语音识别上,例如使用LLMs进行错误校正。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论