EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention

2024年03月26日
  • 简介
    为了捕捉用户偏好,Transformer模型已广泛应用于建模序列用户行为数据。Transformer架构的核心在于自注意力机制,它计算序列中的成对注意力分数。由于置换等变性的性质,位置编码被用来增强令牌表示之间的注意力。在这种情况下,成对注意力分数可以通过语义差异和位置差异两种方式推导出来。然而,以往的研究经常以不同的方式对两种差异进行建模,这可能限制了序列建模的表达能力。为了解决这个问题,本文提出了一种新的Transformer变体,名为EulerFormer,采用复向量注意力,提供了一个统一的理论框架来表述语义差异和位置差异。EulerFormer包含两个关键技术改进。首先,它采用了一种新的变换函数,通过欧拉公式将序列令牌高效地转换为极坐标形式的复向量,以复合旋转形式统一建模语义和位置信息。其次,它开发了一种微分旋转机制,语义旋转角度可以由自适应函数控制,根据语义上下文实现语义和位置信息的自适应集成。此外,提出了一种相位对比学习任务,以改善EulerFormer中上下文表示的各向异性。我们的理论框架具有很高的完整性和普适性。它对语义变化更加稳健,并在原则上具有更优越的理论性质。在四个公共数据集上进行的广泛实验证明了我们方法的有效性和效率。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图提出一个新的transformer变体,名为EulerFormer,用于更好地融合语义信息和位置信息。同时,该论文还提出了一个相位对比学习任务,用于提高EulerFormer中上下文表示的各向异性。
  • 关键思路
    EulerFormer通过使用极坐标复向量来统一建模语义信息和位置信息,这种方法可以更好地融合两种信息。同时,EulerFormer采用差分旋转机制,可以根据语义上下文自适应地集成两种信息。
  • 其它亮点
    论文在四个公共数据集上进行了广泛的实验,证明了EulerFormer的有效性和高效性。此外,论文还提出了一个相位对比学习任务,用于提高上下文表示的各向异性。
  • 相关研究
    最近的相关研究包括:BERT、GPT、XLNet等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问