近年来,最广泛使用的预训练语言模型都是基于单词或子单词单元的 token 序列进行操作的,而直接对原始文本(字节或字符)进行操作的无 token 模型有很多好处。在本篇论文中,谷歌研究者进行了大量实验,发布了一组新的基于 T5 架构的预训练字节级 Transformer 模型,并开源了所有代码和数据。

 

论文链接:https://arxiv.org/pdf/2105.13626.pdf

GitHub 地址:https://github.com/google-research/byt5

内容中包含的图片若涉及版权问题,请及时与我们联系删除