The Foundations of Tokenization: Statistical and Computational Concerns

简介

本文旨在从形式化的角度来建立Tokenization（将字母表上的字符字符串转换为词汇表上的令牌序列的实践）的基础，因为Tokenization是自然语言处理流程中至关重要但理论上尚未充分整合到广泛使用的端到端神经模型中的唯一重要步骤。通过阐述和扩展关于随机映射类别的基本属性，我们提出了一个统一的框架来表示和分析Tokenizer模型。这个框架使我们能够建立使用Tokenizer的一般条件。特别地，我们正式建立了Tokenizer模型保持统计估计器一致性所必要和充分的条件。此外，我们还讨论了设计和实现Tokenizer模型所必须考虑的统计和计算问题。本文提出的框架和结果是迈向神经语言建模的强大理论基础的一步。
图表
解决问题

本文旨在从形式化的角度出发，解决自然语言处理中的分词问题，提出了一种统一的框架和分析分词器模型的方法，同时探讨了设计和实现分词器模型时需要考虑的统计和计算问题。
关键思路

本文提出了一种基于随机映射的统一框架，用于表示和分析分词器模型，并且建立了分词器模型保持统计估计器一致性的必要和充分条件。
其它亮点

本文的亮点包括提出了一种新的统一框架，建立了分词器模型保持统计估计器一致性的必要和充分条件，同时探讨了设计和实现分词器模型时需要考虑的统计和计算问题。实验部分使用了多个数据集，并且提供了开源代码。
相关研究

近期在这个领域中的相关研究包括：《Character-level Convolutional Networks for Text Classification》、《Chinese Word Segmentation with CRF and Semi-supervised Learning》等。

The Foundations of Tokenization: Statistical and Computational Concerns

评论