TACL：中文预训练模型的细粒度分词（Tokenization）｜OpenBMB论文速读第 4 期

资源 NLP 大模型

OpenBMB 2023-03-06 09:54 分享

以下文章来源于mp.weixin.qq.com

【论文速读】是OpenBMB发起的大模型论文学习栏目，用 高效的思维导图 形式，带领大家在 10min 内快速掌握一篇 前沿经典 论文。我们邀请来自清华大学自然语言处理实验室以及各大高校、科研机构的 学术达人 作为主讲人分享 大模型领域 的论文。

TACL 是自然语言处理顶级期刊，在 NLP 领域有良好的声誉和影响力。本期论文速读带大家了解一项比传统中文 tokenizer 更加细粒度的分词方式——Sub-Character Tokenization for Chinese Pretrained Language Models (TACL 2023) ，由共同第一作者马里兰大学本科生司程磊进行领读讲解。

01 作者信息

Co-first-authors: Chenglei Si, Zhengyan Zhang, Yingfa Chen

Brainstorm & Discussion: Fanchao Qi, Xiaozhi Wang

Advisors: Zhiyuan Liu, Maosong Sun

External Support: Yasheng Wang, Qun Liu

02 论文简介

关键词 KeyWords

Tokenization

Pretrained Language Models

Chinese NLP

摘要概览 Abstract

中文 tokenizer 普遍以字为最小单位，错失了更细粒度的信息，比如部首
提出将字转化

为字形或读音序列后再做 tokenization 的方法，挖掘字内部的细粒度信息
结果显示模型更加高效、鲁棒性更强

‍

03 研究设计

研究思路

下图展示了基础的 CharTokenizer 和 Sub-word tokenizer, 以及本研究提出的SubChar tokenizer 的分词方法

研究步骤

字符编码：把中文字转化成五笔或者拼音序列（同时尝试其他方法，比如注音，郑码等等）
词汇构建：使用 SentencePiece 或 BPE 进行子词分割，并构建 Vocab
预训练模型，并在文本分类，句对分类，指代消歧，阅读理解等下游任务中对效率和鲁棒性进行对比评测

04 实验及结论

预训练细节‍

Vocab size：22675

数据: 2.3G / 22.1G pretrain data from Baidu Baike

层数： 6 / 12

结论‍

SubChar 模型的平均效果相较于 baseline 基本持平或更好

（1）鲁棒性‍‍‍‍

在下游任务数据集上加入拼音序列相同的同音字噪声，SubChar 不会因为噪声的增加而效果下降
不同口音测试样例转化成文本，SubChar 效果也优于 baseline

（2）效率‍

SubChar 能用少量的 token 组合成字，更多的空间可以被用来存词
SubChar 可以在更短的时间内达到的更低的 loss

05 优点及展望

优点‍

利用tokenizer的设计挖掘中文字符组成成分的细粒度信息
下游任务效果与baseline持平或更好
对噪声数据更加鲁棒
数据tokenize后长度更短，训练更加高效

改进空间‍

在中文以外的语言上扩展
在文本生成上的应用

▾ 公众号回复「论文速读」

即可获得高清完整版思维导图

我们为读者准备了一份高清思维导图，包括了论文中的重点亮点以及直观的示意图。点击下方名片 关注 OpenBMB ，后台回复“论文速读” ，即可领取论文学习高清思维导图和 FreeMind ！

↑思维导图，关注回复“论文速读”获取高清完整版

本期论文速读视频版已发布于 视频号 和 B站（视频讲解比文字阅读更加详细易懂哦），欢迎大家观看后 一键三连 ！

以上是本期论文速读的全部内容，后续 OpenBMB 会围绕大模型介绍更多前沿论文，欢迎大家持续关注！👏

▾ 传送门 相关链接

论文文章及链接：

🔗https://arxiv.org/abs/2106.00400

代码：

🔗https://github.com/thunlp/SubCharTokenization

B站观看链接：

🔗 https://www.bilibili.com/video/BV14D4y1u797/?spm_id_from=333.999.0.0

官方网站

https://www.openbmb.org

技术文章

CPM-Ant 训练完成 | BMInf 适配GLM-130B

高效训练工具 BMTrain | BMTrain 技术原理

CPM-Live 邀请函 | CPM-Live 训练启动

OpenBMB 社区介绍 | 大模型课程

大模型榜单 BMList

长期开放招聘｜含实习

开发岗 | 研发岗 | 运营岗

交流QQ群

735930538

欢迎转载

商务合作请联系

openbmb@gmail.com

👏期待您的关注与加入👏

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

沙发等你来抢

去评论