- 简介中文拼写检查(CSC)旨在检测和纠正句子中的拼写错误。尽管大型语言模型(LLM)表现出强大的能力并广泛应用于各种任务,但它们在CSC上的表现通常不尽如人意。我们发现,LLM未能满足CSC任务的中文字符级约束,即等长和音近,从而导致了性能瓶颈。进一步的分析揭示,这个问题源于分词的粒度,因为当前的混合字符-词分词难以满足这些字符级约束。为了解决这个问题,我们提出了C-LLM,一种基于大型语言模型的中文拼写检查方法,它学习逐个字符地检查错误。字符级分词使模型能够学习字符级对齐,有效地缓解了与字符级约束相关的问题。此外,CSC简化为复制为主、替换为辅的任务。在两个CSC基准测试上的实验表明,C-LLM相比现有方法平均提高了10%。具体而言,在一般场景下,它显示出2.1%的改进,在垂直领域场景下则显著提高了12%,建立了最先进的性能。源代码可在https://github.com/ktlKTL/C-LLM上访问。
-
- 图表
- 解决问题CSC performance bottleneck caused by LLMs failing to meet Chinese character-level constraints
- 关键思路C-LLM, a character-level tokenization approach, enables LLMs to learn character-level alignment and effectively mitigate issues related to character-level constraints in CSC
- 其它亮点C-LLM achieves an average improvement of 10% over existing methods, with a 2.1% improvement in general scenarios and a significant 12% improvement in vertical domain scenarios. The source code is available on GitHub at https://github.com/ktlKTL/C-LLM.
- Other recent studies in this field include 'Improving Chinese Spelling Correction with Active Learning and Language Model Ensembling' and 'Chinese Spelling Correction with High-Order Word Dependency Modeling and Global Context Encoding'.
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流