PLATO是百度Siqi Bao等人在2020年-2021年针对NLP对话领域提出的一系列预训练模型,具体包括PLATO,PLATO-2,PLATO-XL,前两篇分别发表在ACL2020和ACL-IJCNLP2021,PLATO-XL则是今年9月在arxiv上预印。
大规模预训练模型BERT、XLNet等在大量的广泛语料上训练,在下游任务上取得了突破性的进展,其证明了预训练—微调框架的有效性。
但是在对话系统上,由于对话语料不同于常规语料,缺少这样大规模的预训练模型。因此PLATO系列利用了大规模的对话语料,对对话系统进行训练,从PLATO到PLATO-XL,用的数据越来越多,模型大小也越来越大。之前开放PLATO的微信体验机器人,也着实让它又火了一遍。
那么本文就来梳理下PLATO家族,具体涉及到的文章链接如下:
-
PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable
论文链接:https://aclanthology.org/2020.acl-main.9.pdf
-
PLATO-2: Towards Building an Open-Domain Chatbot via Curriculum Learning
论文链接:https://aclanthology.org/2021.findings-acl.222.pdf
-
PLATO-XL: Exploring the Large-scale Pre-training of Dialogue Generation
、 论文链接:https://arxiv.org/pdf/1905.03197.pdf
PLATO系列也在github上开源了,只不过用的是paddlepaddle
-
https://github.com/sserdoubleh/Research/tree/master/NLP/Dialogue-PLATO -
https://github.com/PaddlePaddle/Knover/tree/develop/projects/PLATO-2
三个模型各自的亮点:
-
PLATO:采用unified language modeling,通过离散隐分布(Discrete Latent Variable),预测回答和隐行为(latent act)
-
PLATO-2:利用课程学习,在大规模数据上训练
-
PLATO-XL:返璞归真,在输入采用多角色embedding(Multi-Party Aware Pre-training)

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢