- 简介本文研究了transformer语言模型中的编码可以提供哪些有关语言特征和自然语言结构的知识。特别地,我们探讨了BERT如何对句子中成分之间的政府关系进行编码。我们使用了几个探测分类器和两种形态丰富的语言的数据。实验结果表明,政府信息被编码到了所有的transformer层中,但主要出现在模型的早期层中。我们发现,对于这两种语言,少数的注意力头编码了足够的政府关系信息,使我们能够训练一个分类器,能够发现新的、以前未见过的政府类型,这些类型在训练数据中从未出现过。目前,研究语法结构和政府关系的学术界缺乏数据。我们发布了政府银行——一个数据集,定义了我们实验语言中数千个词素的政府关系。
- 图表
- 解决问题本论文旨在探究transformer语言模型中的编码是否能提供关于语言特征和结构的洞见,特别是探讨BERT如何编码句子中成分之间的关系。
- 关键思路通过使用多个探测分类器和两种形态丰富的语言的数据,本论文发现transformer的所有层都编码了关于成分之间关系的信息,但主要集中在模型的早期层次。论文还发现,对于两种语言,只有少数注意力头编码了足够的关于成分之间关系的信息,以使我们能够训练一个分类器,能够发现新的、以前未见过的、在训练数据中从未出现过的关系类型。
- 其它亮点本论文的亮点包括:提供了一个新的数据集Government Bank,其中定义了我们实验中数千个词形的政府关系;证明了transformer语言模型中存在关于成分之间关系的信息编码,这一发现对于语言学和自然语言处理领域具有重要意义;实验设计详细,使用了两种形态丰富的语言的数据,开放了数据集和代码。
- 在这个领域的相关研究包括:《Attention Is All You Need》、《What Does BERT Look At? An Analysis of BERT's Attention》等。
沙发等你来抢
去评论
评论
沙发等你来抢