EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention

2024年03月26日
  • 简介
    为了捕捉用户偏好,变形金刚模型已被广泛应用于建模顺序用户行为数据。变形金刚架构的核心在于自注意机制,它计算序列中的成对注意力分数。由于置换等变性的本质,位置编码被用来增强令牌表示之间的注意力。在这种情况下,成对注意力分数可以通过语义差异和位置差异来推导。然而,先前的研究通常以不同的方式对两种差异度量进行建模,这可能限制了序列建模的表达能力。为了解决这个问题,本文提出了一种新的变形金刚变体,名为EulerFormer,它具有复向量注意力,为两种差异提供了统一的理论框架。EulerFormer包括两个关键技术改进。首先,它采用了一种新的转换函数,用欧拉公式将序列令牌高效地转换为极坐标形式的复向量,使得语义和位置信息可以以复旋转形式统一建模。其次,它开发了一种微分旋转机制,其中语义旋转角可以由自适应函数控制,根据语义上下文实现了语义和位置信息的自适应集成。此外,提出了一个相位对比学习任务,以提高EulerFormer中上下文表示的各向同性。我们的理论框架具有很高的完整性和普适性。它对语义变化更具鲁棒性,并在原理上具有更优越的理论性质。在四个公共数据集上进行的大量实验证明了我们方法的有效性和效率。
  • 图表
  • 解决问题
    论文旨在解决使用transformer模型建模序列用户行为数据时,语义差异和位置差异建模方式不一致的问题,提出一种统一的复数向量注意力机制,名为EulerFormer,以更好地捕捉用户偏好。
  • 关键思路
    EulerFormer采用极坐标形式的复数向量表示令语义和位置信息统一建模,引入差分旋转机制,通过自适应函数控制语义旋转角度,从而更好地融合语义和位置信息,同时提出相位对比学习任务以提高EulerFormer的表示能力。
  • 其它亮点
    论文在四个公共数据集上进行了广泛的实验,证明了EulerFormer的有效性和高效性。此外,EulerFormer的理论框架具有较高的完整性和通用性,并且在原则上具有更优越的理论性质。
  • 相关研究
    最近的相关研究包括使用transformer模型建模序列数据的各种变体,如GPT、BERT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论