GridPE: Unifying Positional Encoding in Transformers with a Grid Cell-Inspired Framework

简介

理解空间位置和关系是现代人工智能系统的基本能力。人类空间认知的见解为该领域提供了有价值的指导。最近的神经科学发现强调了网格细胞作为空间表示的基本神经组成部分的作用，包括距离计算、路径整合和尺度分辨率。在本文中，我们介绍了一种新的位置编码方案，灵感来自于傅里叶分析和计算神经科学关于网格细胞的最新发现。假设网格细胞通过傅里叶基函数的求和来编码空间位置，我们证明了网格表示在内积计算过程中的平移不变性。此外，我们根据生物效率的原则，推导出多维欧几里得空间的最优网格比例。利用这些计算原理，我们开发了一种名为GridPE的网格细胞启发的位置编码技术，用于在高维空间中编码位置。我们将GridPE集成到了金字塔视觉变换器架构中。我们的理论分析表明，GridPE为任意高维空间的位置编码提供了统一的框架。实验结果表明，GridPE显著提高了变压器的性能，凸显了将神经科学见解纳入人工智能系统设计的重要性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决现代人工智能系统中的空间位置和关系的表示问题，通过基于傅里叶分析和计算神经科学中关于网格细胞的最新发现，提出了一种新的位置编码方案。
关键思路

本论文提出的位置编码方案受到了计算神经科学中网格细胞的启发，通过傅里叶基函数的求和来编码空间位置，实现了网格表示的平移不变性，并推导出了多维欧几里得空间的最佳网格比例。
其它亮点

本论文提出的GridPE位置编码方案在高维空间中编码位置，将其应用于Pyramid Vision Transformer架构中，实验结果表明GridPE显著提高了变形器的性能，这表明将神经科学洞见纳入人工智能系统设计的重要性。
相关研究

在这个领域中，最近的一些相关研究包括：《Attention Is All You Need》、《Transformer-XL:Attentive Language Models Beyond a Fixed-Length Context》、《Squeeze-and-Excitation Networks》等。

GridPE: Unifying Positional Encoding in Transformers with a Grid Cell-Inspired Framework

提问交流

提问交流