PLATO是百度Siqi Bao等人在2020年-2021年针对NLP对话领域提出的一系列预训练模型,具体包括PLATO,PLATO-2,PLATO-XL,前两篇分别发表在ACL2020和ACL-IJCNLP2021,PLATO-XL则是今年9月在arxiv上预印。

大规模预训练模型BERT、XLNet等在大量的广泛语料上训练,在下游任务上取得了突破性的进展,其证明了预训练—微调框架的有效性。

但是在对话系统上,由于对话语料不同于常规语料,缺少这样大规模的预训练模型。因此PLATO系列利用了大规模的对话语料,对对话系统进行训练,从PLATO到PLATO-XL,用的数据越来越多,模型大小也越来越大。之前开放PLATO的微信体验机器人,也着实让它又火了一遍。

那么本文就来梳理下PLATO家族,具体涉及到的文章链接如下:

  • PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable

            论文链接:https://aclanthology.org/2020.acl-main.9.pdf

  • PLATO-2: Towards Building an Open-Domain Chatbot via Curriculum Learning

          论文链接:https://aclanthology.org/2021.findings-acl.222.pdf

  • PLATO-XL: Exploring the Large-scale Pre-training of Dialogue Generation

、        论文链接:https://arxiv.org/pdf/1905.03197.pdf

PLATO系列也在github上开源了,只不过用的是paddlepaddle

三个模型各自的亮点:

  • PLATO:采用unified language modeling,通过离散隐分布(Discrete Latent Variable),预测回答和隐行为(latent act)

  • PLATO-2:利用课程学习,在大规模数据上训练

  • PLATO-XL:返璞归真,在输入采用多角色embedding(Multi-Party Aware Pre-training)

内容中包含的图片若涉及版权问题,请及时与我们联系删除