Refining Corpora from a Model Calibration Perspective for Chinese Spelling Correction

2024年07月22日
  • 简介
    中文拼写纠错(CSC)通常缺乏大规模高质量的语料库,这是由于在实际的人类书写或打字场景中,标注拼写错误需要大量的人工劳动。目前采用了两种数据增强方法:(1)在混淆集的指导下进行“随机替换”;(2)基于OCR/ASR的生成,模拟字符误用。然而,这两种方法都不可避免地引入噪声数据(例如假的拼写错误),可能导致过度纠正。通过仔细分析这两种类型的语料库,我们发现虽然后者实现了更强的泛化性能,但前者产生了更好的校准CSC模型。然后,我们根据这个经验观察提供了一个理论分析,提出了一种语料库精炼策略。具体来说,将基于OCR/ASR的数据样本输入到在基于随机替换的语料库上训练的校准良好的CSC模型中,然后根据预测置信度进行过滤。通过在精炼后的OCR/ASR语料库上学习一个简单的BERT模型,我们在三个广泛使用的基准测试上取得了令人瞩目的最新性能,同时显著减轻了过度纠正(例如降低了假阳性预测)。
  • 图表
  • 解决问题
    本论文旨在解决中文拼写纠错中缺乏高质量语料库的问题,提出了两种数据增强方法,但这些方法可能引入噪声数据导致过度纠正。因此,论文提出了一种基于置信度过滤的语料库精炼策略。
  • 关键思路
    论文提出了一种语料库精炼策略,通过在基于随机替换的语料库上训练出一个良好的中文拼写纠错模型,再将基于OCR/ASR的数据样本输入到该模型中进行过滤,最终在精炼后的OCR/ASR语料库上训练一个简单的BERT模型,实现了在三个广泛使用的基准测试中的最佳性能。
  • 其它亮点
    论文提出了两种数据增强方法:基于混淆集的随机替换和基于OCR/ASR的生成。通过对两种语料库进行分析,发现前者产生的模型更加准确,后者产生的模型更具有鲁棒性。论文提出了一种基于置信度过滤的语料库精炼策略,实现了在三个基准测试中的最佳性能。
  • 相关研究
    在相关研究方面,最近的研究主要集中在中文拼写纠错的数据增强和模型设计上。例如,Yuan等人提出了一种基于语音识别的拼写纠错方法,通过语音识别技术生成的文本数据进行训练。另外,Liu等人提出了一种基于深度学习的中文拼写纠错模型,使用了BERT和LSTM等技术。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论