- 简介我们考虑没有标准化的自注意力网络定义的函数空间,并在理论上分析它们的几何形态。由于这些网络是多项式的,我们依靠代数几何工具。特别地,我们通过提供任意层数的参数化的通用纤维的描述来研究深度注意力的可识别性,从而计算出函数空间的维度。此外,对于单层模型,我们表征了奇异点和边界点。最后,我们提出了一个关于标准化自注意力网络的猜想性扩展,证明了单层情况,并在深层情况下进行了数值验证。
- 图表
- 解决问题本论文旨在分析无归一化的自注意力网络的函数空间的几何结构,研究深度注意力的可识别性,并提供了单层模型的奇异点和边界点的描述。
- 关键思路本论文使用代数几何中的工具,研究多项式的自注意力网络的函数空间的维度和可识别性。论文提供了任意层数模型的参数化通用纤维的描述,从而计算函数空间的维度。同时,论文推广了结果到归一化的自注意力网络,并在单层模型中证明了该推广,最后在深度情况下进行了数值验证。
- 其它亮点本论文的亮点包括使用代数几何中的工具分析自注意力网络的函数空间,提供了任意层数模型的参数化通用纤维的描述,以及推广结果到归一化的自注意力网络。实验设计了单层和深度模型,使用了开源数据集,但未提供开源代码。值得进一步研究的工作包括更深入地研究归一化的自注意力网络的几何结构和可识别性。
- 最近在该领域中的相关研究包括《Attention Is All You Need》、《On the Expressive Power of Deep Learning: A Tensor Analysis》等。
沙发等你来抢
去评论
评论
沙发等你来抢