清源 CPM (Chinese Pretrained Models) 是北京智源人工智能研究院和清华大学研究团队合作开展的大规模预训练模型开源计划,清源计划是以中文为核心的大规模预训练模型。首期开源内容包括预训练中文语言模型和预训练知识表示模型,可广泛应用于中文自然语言理解、生成任务以及知识计算应用,所有模型免费向学术界和产业界开放下载,供研究使用。
项目主要特点包括:
- 模型规模大:模型参数规模达26亿,截止2020年10月,为最大的中文预训练语言模型;
- 学习能力:能够在多种自然语言处理任务上,进行零次学习或少次学习达到较好的效果;
- 语料丰富多样:收集大量丰富多样的中文语料,包括百科、小说、对话、问答、新闻等类型;
- 行文自然流畅:基于给定上文,模型可以续写出一致性高、可读性强的文本,达到现有中文生成模型的领先效果。
加入讨论群请戳:清源计划讨论群
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢