文本纠错(Spelling Error Correction)技术常用于文本的预处理阶段。在搜索引擎、输入法和 OCR 中有着广泛的应用。2020年的文本纠错自然也离不开 BERT 的表演。但原生的 BERT 在一些NLP任务如error detection、NER中表现欠佳,说明预训练阶段的学习目标中对相关模式的捕获非常有限,需要根据任务进行一定改造。在文本纠错任务中亦是如此。

此前文本纠错的SOTA方法采用了基于 Bert 的 seq2seq 结构,直接生成纠错后的字符序列。但是经观察发现,这样的方法总是倾向于不进行任何纠错,错误检测能力很低。一种可能的解释是 Bert 在预训练时只掩码了15%的字符,所以并不能够充分学习所有字符的上下文。

为了提高错误检测能力,本文在SOTA方法的基础上又添加了一个错误检测网络。分错误检测和纠正两步走。先检测每一个字的错误概率,然后根据检测结果将可能的错别字 soft-mask,其实就是错误概率,再输给基于Bert的修正网络。这样就强制修正网络学习了错别字的上下文。下面将详细为大家介绍模型的实现细节。

论文链接:https://arxiv.org/pdf/2005.07421.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除