- 简介鉴于AI素养的日益重要,我们决定编写这篇教程,以帮助缩小那些研究语言模型的人与那些对它们感到好奇并想要了解更多的人之间的差距。简而言之,我们认为研究人员和教育工作者的观点可以为公众对技术的理解增加一些清晰度,超出目前可用的范围,这些范围往往要么极其技术化,要么是产品供应商生成的宣传材料。我们的方法将语言模型的概念从建立在它们之上的产品、归因于或期望从这些产品中获得的行为以及关于与人类认知的相似性的声明中分离出来。作为起点,我们(1)提供了一个科学观点,重点关注可以通过实验研究的问题;(2)将现今的语言模型置于导致它们发展的研究背景中;以及(3)描述了目前对这些模型已知的范围。
- 图表
- 解决问题科学观点下的语言模型研究
- 关键思路将语言模型与产品、期望行为和人类认知相区分,提出一种科学研究视角,描述语言模型的发展历程和已知边界
- 其它亮点实验设计包括预训练和微调,使用了多个数据集,作者提出了一些未来的研究方向
- 最近的相关研究包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《GPT-2: Language Models are Unsupervised Multitask Learners》等
沙发等你来抢
去评论
评论
沙发等你来抢