Norm of Mean Contextualized Embeddings Determines their Variance

Hiroaki Yamagiwa ,
Hidetoshi Shimodaira
2024年09月17日
  • 简介
    上下文化嵌入因上下文而异,即使是同一令牌,也会在嵌入空间中形成分布。为了分析这个分布,我们关注嵌入的平均值的范数和嵌入的方差。在这项研究中,我们首先证明了这些值遵循统计学中众所周知的方差公式,并提供了一种有效的顺序计算方法。然后,通过观察几个Transformer模型的中间层的嵌入,我们发现范数和方差之间存在很强的权衡关系:随着平均嵌入越来越接近原点,方差会增加。这种权衡可能受到Transformer模型中使用的层归一化机制的影响。此外,当将令牌嵌入集合视为簇时,我们表明整个嵌入集合的方差在理论上可以分解为簇内方差和簇间方差。我们实验发现,随着Transformer模型层数的增加,嵌入会远离原点,簇间方差相对减少,簇内方差相对增加。这些结果与现有关于不同层之间嵌入空间各向异性的研究结果一致。
  • 图表
  • 解决问题
    本文旨在分析上下文化嵌入的分布情况,探讨嵌入的均值范数和方差之间的关系,以及在Transformer模型中的影响因素。此外,本文还试图理解嵌入空间的各向异性和层间差异。
  • 关键思路
    本文提出了一种有效的顺序计算方法,用于计算嵌入的均值范数和方差,并发现了均值范数和方差之间的强烈权衡关系,以及这种关系可能受到Transformer模型中使用的层归一化机制的影响。此外,本文还通过将标记嵌入集合视为聚类,理论上将嵌入的方差分解为聚类内方差和聚类间方差,通过实验证明了随着Transformer模型层数的增加,嵌入会越来越远离原点,聚类间方差相对减少,聚类内方差相对增加。
  • 其它亮点
    本文的亮点包括提出了有效的顺序计算方法,发现了均值范数和方差之间的权衡关系,以及理论上将嵌入的方差分解为聚类内方差和聚类间方差。实验使用了多个Transformer模型和数据集,并且提供了开源代码。
  • 相关研究
    最近的相关研究包括“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”和“Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论