一文看懂！百度对话系统PLATO家族

NLP

大模型

论文

吴继芳 2021-11-08 17:24 分享

以下文章来源于mp.weixin.qq.com

PLATO是百度Siqi Bao等人在2020年-2021年针对NLP对话领域提出的一系列预训练模型，具体包括PLATO，PLATO-2，PLATO-XL，前两篇分别发表在ACL2020和ACL-IJCNLP2021，PLATO-XL则是今年9月在arxiv上预印。

大规模预训练模型BERT、XLNet等在大量的广泛语料上训练，在下游任务上取得了突破性的进展，其证明了预训练—微调框架的有效性。

但是在对话系统上，由于对话语料不同于常规语料，缺少这样大规模的预训练模型。因此PLATO系列利用了大规模的对话语料，对对话系统进行训练，从PLATO到PLATO-XL，用的数据越来越多，模型大小也越来越大。之前开放PLATO的微信体验机器人，也着实让它又火了一遍。

那么本文就来梳理下PLATO家族，具体涉及到的文章链接如下：

PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable

^{论文链接：https://aclanthology.org/2020.acl-main.9.pdf}

PLATO-2: Towards Building an Open-Domain Chatbot via Curriculum Learning

论文链接：https://aclanthology.org/2021.findings-acl.222.pdf

PLATO-XL: Exploring the Large-scale Pre-training of Dialogue Generation

^{、论文链接：https://arxiv.org/pdf/1905.03197.pdf}

PLATO系列也在github上开源了，只不过用的是paddlepaddle

三个模型各自的亮点：

PLATO：采用unified language modeling，通过离散隐分布（Discrete Latent Variable），预测回答和隐行为（latent act）
PLATO-2：利用课程学习，在大规模数据上训练
PLATO-XL：返璞归真，在输入采用多角色embedding（Multi-Party Aware Pre-training）

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

评论列表

沙发等你来抢

去评论