ByT5：迈向无token的未来，基于T5架构的预训练字节级Transformer

近年来，最广泛使用的预训练语言模型都是基于单词或子单词单元的 token 序列进行操作的，而直接对原始文本（字节或字符）进行操作的无 token 模型有很多好处。在本篇论文中，谷歌研究者进行了大量实验，发布了一组新的基于 T5 架构的预训练字节级 Transformer 模型，并开源了所有代码和数据。

论文链接：https://arxiv.org/pdf/2105.13626.pdf

GitHub 地址：https://github.com/google-research/byt5

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ByT5：迈向无token的未来，基于T5架构的预训练字节级Transformer

评论