Constructing a BPE Tokenization DFA

2024年05月13日
  • 简介
    许多自然语言处理系统都使用文本的标记化来解决开放词汇问题。本文提出并分析了一种高效构建确定性有限自动机的算法,该算法旨在直接处理通过流行的字节对编码技术产生的标记化。这使得可以将许多现有的技术和算法应用于标记化的情况,例如模式匹配、标记化词典的等价性检查以及以各种方式组合标记化语言。
  • 图表
  • 解决问题
    论文旨在解决在自然语言处理中的开放词汇问题,提出了一种基于字节对编码技术的确定性有限自动机构建算法。
  • 关键思路
    论文提出了一种直接在基于字节对编码技术的分词上操作的算法,使得可以应用许多现有的技术和算法来处理分词,如模式匹配、等价性检查和各种方式的组合。
  • 其它亮点
    论文设计了实验来评估算法的效率,使用了不同的数据集,并提供了开源代码。该算法可以应用于自然语言处理中的许多问题,具有广泛的应用前景。
  • 相关研究
    在最近的相关研究中,也有一些关于基于字节对编码技术的分词的研究,如《Neural Machine Translation of Rare Words with Subword Units》和《End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论