【论文速读】是OpenBMB发起的大模型论文学习栏目,用 高效的思维导图 形式,带领大家在 10min 内快速掌握一篇 前沿经典 论文。我们邀请来自清华大学自然语言处理实验室以及各大高校、科研机构的 学术达人 作为主讲人分享 大模型领域 的论文。
 

 

TACL 是自然语言处理顶级期刊NLP 领域有良好的声誉和影响力。本期论文速读带大了解一项比传统中文 tokenizer 加细粒度的分词方式——Sub-Character Tokenization for Chinese Pretrained Language Models (TACL 2023) ,由共同第一作者马里兰大学本科生司程磊进行领读讲解。

 


 

 01  作者信息 

Co-first-authors: Chenglei Si, Zhengyan Zhang, Yingfa Chen

Brainstorm & Discussion: Fanchao Qi, Xiaozhi Wang
Advisors: Zhiyuan Liu, Maosong Sun 
External Support: Yasheng Wang, Qun Liu
 

 02  论文简介 

关键词   KeyWords
Tokenization
Pretrained Language Models
Chinese NLP 
 
摘要概览   Abstract
  • 中文 tokenizer 普遍以字为最小单位,错失了更细粒度的信息,比如部首
  • 提出将字转化
    为字形或读音序列后再做 tokenization 的方法,挖掘字内部的细粒度信息
  • 结果显示模型更加高效、鲁棒性更强 



 03  研究设计 

研究思路

下图展示了基础的 CharTokenizer 和 Sub-word tokenizer, 以及本研究提出的SubChar tokenizer 的分词方法

研究步骤
  • 字符编码:把中文字转化成五笔或者拼音序列(同时尝试其他方法,比如注音,郑码等等)

     

  • 词汇构建:使用 SentencePiece 或 BPE 进行子词分割,并构建 Vocab

     

  • 预训练模型,并在文本分类,句对分类,指代消歧,阅读理解等下游任务中对效率和鲁棒性进行对比评测

 


 04  实验及结论 

预训练细节

Vocab size:22675

数据: 2.3G / 22.1G pretrain data from Baidu Baike

层数: 6 / 12

 

结论

SubChar 模型的平均效果相较于 baseline 基本持平或更好

1)鲁棒性

  • 在下游任务数据集上加入拼音序列相同的同音字噪声,SubChar 不会因为噪声的增加而效果下降

  • 不同口音测试样例转化成文本,SubChar 效果也优于 baseline
(2)效率
  • SubChar 能用少量的 token 组合成字,更多的空间可以被用来存词

  • SubChar 可以在更短的时间内达到的更低的 loss

     

 


 05  优点及展望 

优点

  • 利用tokenizer的设计挖掘中文字符组成成分的细粒度信息

  • 下游任务效果与baseline持平或更好

  • 对噪声数据更加鲁棒

  • 数据tokenize后长度更短,训练更加高效

改进空间

  • 在中文以外的语言上扩展

  • 在文本生成上的应用


 ▾   公众号回复 「论文速读」
即可获得高清完整版思维导图 

 

我们为读者准备了一份高清思维导图,包括了论文中的重点亮点以及直观的示意图。点击下方名片 关注 OpenBMB ,后台回复“论文速读” ,即可领取论文学习高清思维导图和 FreeMind !

思维导图,关注回复“论文速读”获取高清完整版
 
              

本期论文速读视频版已发布于 视频号 和 B站 (视频讲解比文字阅读更加详细易懂哦),欢迎大家观看后 一键三连 


 
以上是本期论文速读的全部内容,后续 OpenBMB 会围绕大模型介绍更多前沿论文,欢迎大家持续关注!👏
 ▾ 传送门   相关链接 

论文文章及链接:

🔗https://arxiv.org/abs/2106.00400 
代码:
🔗https://github.com/thunlp/SubCharTokenization

B站观看链接:

🔗 https://www.bilibili.com/video/BV14D4y1u797/?spm_id_from=333.999.0.0

官方网站
https://www.openbmb.org
技术文章
CPM-Ant 训练完成 BMInf 适配GLM-130B
高效训练工具 BMTrain BMTrain 技术原理
CPM-Live 邀请函 CPM-Live 训练启动
OpenBMB 社区介绍 | 大模型课程
大模型榜单 BMList
长期开放招聘含实习
开发岗  |  研发岗  |  运营岗
交流QQ群
735930538
欢迎转载
商务合作请联系
openbmb@gmail.com
👏期待您的关注与加入👏

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除