标题:哥本哈根大学|When BERT Plays The Lottery, All Tickets Are Winning(当BERT玩彩票时,所有彩票都中了)

作者:Anna Rogers

机构:哥本哈根大学

简介:在BERT发布到全世界的两年后,变换器仍然在排行榜中占据主导地位,并产生了许多后续研究。我们尝试研究BERTology(后称BERT学)文献的第一版(Rogers等,2020)概述了2020年2月的40篇论文;到6月,已有100多篇;最终的TACL相机就绪版本具有约150个与BERT相关的引用,并且没有结束的迹象,我们在2020年8月用光了期刊当前分配的所有页面。
 
    但是即使进行了所有研究,仍不清楚BERT为什么如此出色。许多研究(Hewitt and Manning 2019; Liu et al.2019; Clark et al.2019; Htut et al.2019)表明BERT具有很多有关语言的信息,这可以解释其高性能。但是,大多数BERT分析论文都专注于不同类型的探查:屏蔽语言模型的直接探查(Ettinger 2020; Goldberg 2019)或各种任务(POS标记,NER,句法解析等),对此进行监督分类在完整BERT或部分BERT之上进行训练(Htut等人2019; Tenney,Das和Pavlick 2019)。前者实际上并没有告诉我们关于最优化的BERT的信息,后者是最常用的方式,而后者则增加了额外的参数,这使得很难明确地为基础的BERT表示法分配功劳。此外,现在很明显,许多当前的NLP数据集具有各种偏差和伪像(Gururangan等人2018; Geva,Goldberg和Berant 2019),而BERT确实利用了它们(T.McCoy,Pavlick和Linzen 2019; Jin等人,2020年; Sugawara等人,2018年; Rogers等人,2020年)。
 
    最近的工作为其他研究方向提供了提示:
  • 彩票假说提出,随机初始化的神经网络包含可以单独重新训练以达到(有时甚至超过)完整模型性能的子网络(Frankle and Carbin 2019);
  • 可以基于从模型的梯度得出的重要性得分来裁剪大多数BERT的自注意头(Michel,Levy和Neubig 2019);
  • 对于受过机器翻译训练的Base-Transformer模型,最后裁剪的头倾向于具有语法功能(Voita等人2019)。
    考虑到所有这些:如果BERT过于参数化,我们是否可以通过将其裁剪成最重要的组成部分使其更具解释性?如果它们确实对模型的性能至关重要,那么它们的功能应该告诉我们有关整个过程实际工作方式的一些信息。在这种方法下,我们将使用裁剪作为一种用于模型分析的技术,而不是模型压缩。
 
    在与Sai Prasanna(Zoho)和Anna Rumshisky(UMass Lowell)的一个联合项目中,我们发现,基于BERT权重的大小,非结构化裁剪与核心彩票假说的预测相符,并产生稳定的子网。但是,基于它们的重要性得分裁剪BERT头和MLP并不会产生在微调初始化或类似任务(这将表明一致的推理策略)之间保持一致的“良好”子网络。这些子网也不优先包含对可能解释的模式进行编码的自注意头。对于大多数GLUE任务,可以对“好”子网进行重新训练,使其性能接近完整模型的性能,但是可以随机采样相同大小的子网。对于BERT压缩而言,这是个好消息(这是不容错过的彩票),但对于可解释性而言则是个坏消息。
 

裁剪BERT

    彩票假说再一次预测,随机初始化的神经网络包含可以单独重新训练以达到完整模型性能的子网络(Frankle and Carbin 2019)。我们使用两种裁剪方法来找到此类子网并测试该假设是否成立:非结构化幅度裁剪和结构化裁剪。
 
    经典彩票假说主要是通过非结构化裁剪(特别是幅度裁剪(m裁剪))进行测试的,其中最小幅度的权重被裁剪,无论其在模型中的位置如何。只要裁剪子网的性能高于完整模型的90%,我们就会在整个微调模型(嵌入除外)上迭代裁剪最小幅度权重的10%,并评估开发集。
 
    我们还根据其重要性得分对BERT体系结构的整个组件进行了结构化裁剪(s-裁剪):具体而言,我们通过应用遮罩来“删除”最不重要的自注意头和MLP。在每次迭代中,只要裁剪子网的性能超过完整模型的90%以上,我们就会裁剪10%的BERT头和1个MLP。为了确定要裁剪的头部或MLP,我们使用基于损失的近似值。Michel,Levy和Neubig(2019)提出的自注意力头部的重要性评分,我们将其扩展到MLP。请参阅我们的论文和原始公式以获取更多详细信息。
 
    对于这两种方法,蒙版都是确定有关特定数据集的完整模型性能的信息。我们感兴趣的是找到使BERT在9个GLUE任务的全部设置中都能表现良好的子网(Wang等人2018)。 GLUE测试集不是公开可用的,我们使用开发集来查找裁剪蒙版并测试模型。由于我们对BERT的“推理策略”感兴趣,而不是泛泛,因此这种方法使我们可以看到针对此特定数据的最佳/最差子网络。
 

跨随机初始化的“好”子网的稳定性如何?

    最近的工作表明,在特定于任务的层的随机初始化之间,BERT性能存在很大差异(Dodge等人,2020年),不同程度的初始化会导致泛化性能显着不同(RT McCoy,Min和Linzen, 2019)。
 
    我们通过对GLUE任务运行每个实验,并对BERT特定于任务的层进行5次随机初始化(在所有实验中使用相同的种子集),来评估“良好”子网的稳定性。以下是两种裁剪方法中发现的“良好”子网的示例:
 
“好”子网示例:两种裁剪方法选择的子网非常不同
 
    显然,m裁剪的子网非常稳定(std大多在0.01左右)。但是对于S裁剪,不能说相同的话:有几个头是“超级幸存者”(即它们在所有随机种子中都可以生存),而有些头则永远无法裁剪,但是对于约70%的头来说,标准差是在0.45-0.55范围内。用于随机种子的头部/ MLP留存遮罩的Fleiss卡帕值也很低,在0.1-0.3范围内。
 
    造成这种情况的原因似乎是,大多数BERT头的重要性得分都同样低。这是在裁剪迭代1时CoLA重要性得分分布的一个示例:大多数头部同样不重要,并且可以以几乎相同的效果裁剪所有头部。
 
注意力得分分布:CoLA,迭代1,大多数头的重要性得分较低
 

跨任务的“良好”子网的稳定性如何?

 
    由于进行m裁剪的关键因素是预训练的BERT权重的大小,因此m裁剪的子网在随机种子和任务之间都非常相似。但这不是S裁剪的情况,S裁剪在各个任务之间“好”子网是完全不同的:
 
    在“好”子网方面,似乎并非总是相关任务具有更多共同点。下图显示了子网中所有GLUE任务对的“共享”自注意力头的平均数量。例如,在任务制定方面,QQP和MRPC比QQP和MNLI更接近,但是在两种情况下,“良好”子网共享52-55个头。
 
GLUE任务在“好”子网络中共享的自注意力头:密切相关的任务并不一定具有更多共同的头(例如QQP / MRPC和QQP / MNLI)。
 

BERT的彩票假设吗?

 
    我们考虑三种实验设置:
 
  • “良好”子网:通过s裁剪或m裁剪从完整模型中选择的元素;
  • “随机”子网:从完整模型中随机采样的元素,以匹配“良好”子网的大小;
  • “不良”子网络:裁剪后没有幸免的元素,再加上从其余元素中采样的一些元素,以匹配良好的子网络规模。
    在所有这三种设置中,我们将测量裁剪后的子网的性能以及重新微调的同一子网的性能,而其余模型则被屏蔽。再一次,彩票假说的预测是,当重新调整时,“好”子网络应该能够实现完整的模型性能。
 
    我们确实发现这种情况适用于m裁剪:经过裁剪和重新优化的“好”子网在8/9 GLUE任务(WNLI除外,该模型通常无法学习)中达到了完整的模型性能。这些结果与同时进行幅度裁剪的BERT的工作一致(Chen等,2020)。重新调整后,“随机”和“不良”子网络通常也表现更好,但“不良”子网络始终比“随机”更差。
 
好的,坏的和随机的:幅度裁剪。大多数情况下,可以对“好”子网络进行重新训练,以使其完全符合模型的性能;
也可以对“随机”子网络进行重新训练,但效果却越来越差;而“不良”子网络始终是最差的。
    但是,对于s裁剪的子网,趋势是不同的。对于大多数任务,经过S裁剪的子网不能完全达到模型的完整性能,尽管对于许多任务,差异在2点之内。但是,“随机”子网络几乎可以与“良好”子网络一样进行重新训练,这与以下事实一致:大多数头的重要性得分均较低。至于“不良”子网络,请注意,由于我们评估了GLUE的开发集(也用于选择掩码),因此“不良”子网络是最糟糕的,为该特定数据合理选择BERT元素。然而,即使它们仍然保持高度可训练性,并且平均而言它们与biLSTM + GloVe GLUE基线匹配。
 
好的,坏的和随机的:结构化裁剪。重新训练后,“好”子网络无法完全达到模型的全部性能,但它们非常接近。
但是大多数“随机”子网络也表现良好,甚至“坏”子网络也是高度可训练的。
    我们得出的结论是,可以说S裁剪的BERT没有“丢失”的彩票。它不能完全达到完整模型的性能,但是对于大多数GLUE任务,完整模型的随机子集的性能几乎与重要性得分选择的子网相当。这表明,大多数BERT组件都是多余的(在这种情况下,大多数随机子集仍将包含相同的信息),或者不同组件的信息内容存在真正的差异,但是重要性分数对其并不足够敏感。
 

“好”子网的语言学信息如何?

 
    在此实验中,我们专门考虑“超级幸存者”:在5个随机种子上进行S裁剪后幸存下来的BERT组件。如果BERT子网的成功归因于它们所编码的语言知识,那么“超级幸存者”应该包含更多的知识。
 
    我们专注于自注意力头,因为它们一直是众多BERT学研究的重点,表明它们编码特定的语言知识(Htut等人2019; Clark等人2019)以及可解释性辩论(Brunner等人.2019年; Jain和Wallace 2019年; Wiegreffe和Pinter 2019年)。我们没有使用探测来识别BERT头的潜在功能,而是选择直接分析它们的注意力模式,该模式有5种类型(Kovaleva et al.2019):
 
自注意模式类型(Kovaleva et al.2019)
    由于“异构”模式是唯一可以潜在地编码语言可解释关系的模式,因此具有这种模式的自注意头部的比例为可解释模式提供了上限。之后(Kovaleva等人,2019),我们在作者提供的400张自注意地图的手动注释集上训练了CNN分类器。我们还考虑了权重标记的注意力图(Kobayashi等人,2020年),这应该减少对特殊标记的注意力,并为此注释600个以上的注意力图样本。然后,我们对每个GLUE任务中的100个示例进行编码,为每个BERT头生成注意力图,并使用我们训练有素的分类器来估算每种类型得到多少个模式。在带注释的数据上,分类器得出的原始注意力图的F1为0.81,权重图的F1为0.74。
 
    我们观察到,对于原始注意力图,超级幸存者的头部具有更多的块状和垂直+对角线模式,但是异构模式的数量并没有增加。在负重状态下,对角线模式的比率会降低,但是对于大多数任务,超级幸存者仍然具有30%至40%的对角线模式。在这两种情况下,两个复述检测任务(MRPC和QQP)的垂直注意模式数量都有显着增加,这通常表明对SEP,CLS和标点的注意力(Kovaleva et al。,2019)。
 
超级幸存者头部的自注意模式分布。在原始或体重正常的注意力中,
“超级幸存者”子网络(左)与完整模型分布(右)相比,潜在可解释的自注意模式的比率(蓝色)没有显着变化。
    总体而言,超级幸存者子网似乎并非主要由可能有意义的自注意模式组成。该结果与先前的报告中进行“繁重”工作的自注意力头目形成对比(Voita等人,2019年);但是,这两项研究探索了不同的体系结构(BERT与完整的Transformer),并且它们依靠不同的方法来裁剪和解释自注意的头。
 

结论

 
    我们的研究和同时进行的工作(Chen et al。2020)都证实,在BERT上使用幅度裁剪时,彩票假设是成立的:“好的”子网络可以重新训练以达到完整的模型性能。
 
    结构化裁剪讲述了一个不同的故事:我们发现使用此方法裁剪BERT的大部分子网会导致“好”,“随机”和“坏”网络之间的性能相似,并且它们中的任何一个都无法完全实现原始网络。因此,可以说,采用结构化裁剪的BERT即使没有完全“获胜”,也没有“丢”票。
 
    我们的实验还表明,BERT的高性能似乎并非来自特定BERT组件(自注意力头和MLP)的预训练权重中唯一编码的特定语言知识:否则,“良好”子网络在随机种子中将保持稳定。它们在GLUE任务的“良好”子网中也不稳定,相同类型不一定有更多的共同点。最后,即使是最能幸存下来的自注意力的头部,也没有主要的自注意力模式,这可能是可以解释的。
 
    所有这些意味着,关于BERT如何实现其出色的性能,我们还有很多问题比答案要多。如果这么多重要的自注意力头甚至无法解释,我们是否应该放弃这样的想法,即某些知识是在特定的体系结构组件中编码的,而不是在整个网络中传播的?我们如何研究这种分布式表示?我们通常将GLUE上的高性能归因于BERT或数据集组件的语言知识吗?我们是否希望它们以同样的方式体现在自注意的权重上?它是关于语言知识的编码,还是与特定于任务的层的初始化和预训练权重的优化表面之间的匹配有关? LSTM的结果表明,语言任务的表现可能会受益于非语言的预训练(Papadimitriou和Jurafsky 2020)。
 
    我们肯定知道的一件事是,BERT学研究还远远没有结束。
 

参考文献

Brunner, Gino, Yang Liu, Damián Pascual, Oliver Richter, and Roger Wattenhofer. 2019. “On the Validity of Self-Attention as Explanation in Transformer Models.” arXiv:1908.04211 [Cs], August. http://arxiv.org/abs/1908.04211.

Chen, Tianlong, Jonathan Frankle, Shiyu Chang, Sijia Liu, Yang Zhang, Zhangyang Wang, and Michael Carbin. 2020. “The Lottery Ticket Hypothesis for Pre-Trained BERT Networks.” arXiv:2007.12223 [Cs, Stat], July. http://arxiv.org/abs/2007.12223.

Clark, Kevin, Urvashi Khandelwal, Omer Levy, and Christopher D. Manning. 2019. “What Does BERT Look at? An Analysis of BERT’s Attention.” In Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, 276–86. Florence, Italy: Association for Computational Linguistics. https://doi.org/10.18653/v1/W19-4828.

Dodge, Jesse, Gabriel Ilharco, Roy Schwartz, Ali Farhadi, Hannaneh Hajishirzi, and Noah Smith. 2020. “Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping.” arXiv:2002.06305 [Cs], February. http://arxiv.org/abs/2002.06305.

Ettinger, Allyson. 2020. “What BERT Is Not: Lessons from a New Suite of Psycholinguistic Diagnostics for Language Models.” Transactions of the Association for Computational Linguistics 8: 34–48. https://doi.org/https://doi.org/10.1162/tacl_a_00298.

Frankle, Jonathan, and Michael Carbin. 2019. “The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks.” In International Conference on Learning Representationshttps://openreview.net/forum?id=rJl-b3RcF7.

Geva, Mor, Yoav Goldberg, and Jonathan Berant. 2019. “Are We Modeling the Task or the Annotator? An Investigation of Annotator Bias in Natural Language Understanding Datasets.” In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 1161–6. Hong Kong, China: Association for Computational Linguistics. https://doi.org/10.18653/v1/D19-1107.

Goldberg, Yoav. 2019. “Assessing BERT’s Syntactic Abilities.” arXiv:1901.05287 [Cs], January. http://arxiv.org/abs/1901.05287.

Gururangan, Suchin, Swabha Swayamdipta, Omer Levy, Roy Schwartz, Samuel Bowman, and Noah A. Smith. 2018. “Annotation Artifacts in Natural Language Inference Data.” In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), 107–12. New Orleans, Louisiana: Association for Computational Linguistics. https://doi.org/10.18653/v1/N18-2017.

Hewitt, John, and Christopher D. Manning. 2019. “A Structural Probe for Finding Syntax in Word Representations.” In, 4129–38. https://aclweb.org/anthology/papers/N/N19/N19-1419/.

Htut, Phu Mon, Jason Phang, Shikha Bordia, and Samuel R. Bowman. 2019. “Do Attention Heads in BERT Track Syntactic Dependencies?” arXiv:1911.12246 [Cs], November. http://arxiv.org/abs/1911.12246.

Jain, Sarthak, and Byron C. Wallace. 2019. “Attention Is Not Explanation.” In, 3543–56. https://aclweb.org/anthology/papers/N/N19/N19-1357/.

Jin, Di, Zhijing Jin, Joey Tianyi Zhou, and Peter Szolovits. 2020. “Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment.” In AAAI 2020http://arxiv.org/abs/1907.11932.

Kobayashi, Goro, Tatsuki Kuribayashi, Sho Yokoi, and Kentaro Inui. 2020. “Attention Module Is Not Only a Weight: Analyzing Transformers with Vector Norms.” arXiv:2004.10102 [Cs], April. http://arxiv.org/abs/2004.10102.

Kovaleva, Olga, Alexey Romanov, Anna Rogers, and Anna Rumshisky. 2019. “Revealing the Dark Secrets of BERT.” In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 4356–65. Hong Kong, China: Association for Computational Linguistics. https://doi.org/10.18653/v1/D19-1445.

Liu, Nelson F., Matt Gardner, Yonatan Belinkov, Matthew E. Peters, and Noah A. Smith. 2019. “Linguistic Knowledge and Transferability of Contextual Representations.” In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 1073–94. Minneapolis, Minnesota: Association for Computational Linguistics. https://www.aclweb.org/anthology/N19-1112/.

McCoy, R. Thomas, Junghyun Min, and Tal Linzen. 2019. “BERTs of a Feather Do Not Generalize Together: Large Variability in Generalization Across Models with Similar Test Set Performance.” arXiv:1911.02969 [Cs], November. http://arxiv.org/abs/1911.02969.

McCoy, Tom, Ellie Pavlick, and Tal Linzen. 2019. “Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference.” In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 3428–48. Florence, Italy: Association for Computational Linguistics. https://doi.org/10.18653/v1/P19-1334.

Michel, Paul, Omer Levy, and Graham Neubig. 2019. “Are Sixteen Heads Really Better Than One?” Advances in Neural Information Processing Systems 32 (NIPS 2019), May. http://papers.nips.cc/paper/9551-are-sixteen-heads-really-better-than-one.

Papadimitriou, Isabel, and Dan Jurafsky. 2020. “Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models.” arXiv:2004.14601 [Cs], September. http://arxiv.org/abs/2004.14601.

Rogers, Anna, Olga Kovaleva, Matthew Downey, and Anna Rumshisky. 2020. “Getting Closer to AI Complete Question Answering: A Set of Prerequisite Real Tasks.” In Proceedings of the AAAI Conference on Artificial Intelligence, 8722–31. https://aaai.org/ojs/index.php/AAAI/article/view/6398.

Rogers, Anna, Olga Kovaleva, and Anna Rumshisky. 2020. “A Primer in BERT学: What We Know About How BERT Works.” (Accepted to TACL), February. http://arxiv.org/abs/2002.12327.

Sugawara, Saku, Kentaro Inui, Satoshi Sekine, and Akiko Aizawa. 2018. “What Makes Reading Comprehension Questions Easier?” In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 4208–19. Brussels, Belgium: Association for Computational Linguistics. https://doi.org/10.18653/v1/D18-1453.

Tenney, Ian, Dipanjan Das, and Ellie Pavlick. 2019. “BERT Rediscovers the Classical NLP Pipeline.” In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 4593–4601. Florence, Italy: Association for Computational Linguistics. https://doi.org/10.18653/v1/P19-1452.

Voita, Elena, David Talbot, Fedor Moiseev, Rico Sennrich, and Ivan Titov. 2019. “Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned.” In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 5797–5808. Florence, Italy: Association for Computational Linguistics. https://doi.org/10.18653/v1/P19-1580.

Wang, Alex, Amapreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R. Bowman. 2018. “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding.” In Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, 353–55. Brussels, Belgium: Association for Computational Linguistics. http://aclweb.org/anthology/W18-5446.

Wiegreffe, Sarah, and Yuval Pinter. 2019. “Attention Is Not Not Explanation.” In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 11–20. Hong Kong, China: Association for Computational Linguistics. https://doi.org/10.18653/v1/D19-1002.

内容中包含的图片若涉及版权问题,请及时与我们联系删除