BERT、GPT-2等预训练模型这么多，用什么预训练框架来跑这些模型？

预训练已经成为自然语言处理任务的重要组成部分，为大量自然语言处理任务带来了显著提升。本文将围绕预训练模型，介绍相关技术在文本内容理解方面的应用。更具体的，本文会首先对已有的经典预训练工作进行回顾，帮助大家理解预训练模型以及不同模型之间的差异；然后介绍我们在训练算法、框架开发、上线推理方面进一步的探索，以及相关工作在业务上的应用。最后，对当前我们面临的挑战进行总结，并对未来工作进行展望。

分享嘉宾：赵哲博士腾讯高级研究员

本文涉及的预训练框架UER-py项目地址：

https://github.com/dbiir/UER-py

项目整体的框架结构如下图：

特点：

UER最大的特点是模块化的设计，预训练模型被拆多个部分，我们可以通过不同模块的组合构成预训练模型。这样做的优点是框架可读性高，代码量少。
面向中文，支持非常多的中文任务，中文竞赛，以及发布了大量的中文预训练权重。
UER不仅支持Transformer相关的工作，也包括LSTM、GatedCNN这样的编码器。

这篇文章中给出了这些预训练权重详细的信息，链接为：

https://zhuanlan.zhihu.com/p/355117358?utm_source=wechat_session&utm_medium=social&utm_oi=34735598338048&utm_campaign=shareopn

内容中包含的图片若涉及版权问题，请及时与我们联系删除

BERT、GPT-2等预训练模型这么多，用什么预训练框架来跑这些模型？

评论