HyperMLP: An Integrated Perspective for Sequence Modeling

2026年02月13日
  • 简介
    自注意力机制通常被视为一种基于概率的“查询–键”查找过程,这促使研究者设计出能够保持归一化注意力分数及固定位置语义的模型结构。我们则主张一种更简洁、更统一的理解视角:一个自回归式的注意力头,本质上可被视作一个动态的双层多层感知机(MLP),其权重由上下文历史实时实例化生成。在此视角下,注意力分数本身构成了一种持续增长的隐状态表征;而标准的MLP激活函数(如ReLU或GLU)则自然地实现了对上下文相关记忆池的输入条件化选择,而非对某种概率分布进行建模。基于这一理论框架,我们提出了HyperMLP与HyperGLU两种新结构:它们在特征空间与序列空间两个维度上均学习动态混合机制,并采用反向偏移(即滞后)布局,以确保时间维度上的混合操作与自回归建模的语义严格对齐。我们从理论上刻画了该结构的表达能力及其内在性质,并通过实验验证,在参数量严格匹配的前提下,HyperMLP与HyperGLU始终显著优于强基线的Softmax注意力模型。
  • 作者讲解
  • 图表
  • 解决问题
    传统自注意力机制将注意力分数解释为查询-键之间的概率分布,强调归一化得分和固定位置编码,但这种概率视角可能限制了建模灵活性;论文质疑该范式,旨在验证‘自回归注意力头可被统一建模为上下文动态生成的两层MLP’这一新假设,并探索更轻量、更表达力强、且语义对齐的替代架构。
  • 关键思路
    提出‘动态MLP’视角:将每个注意力头视为由历史上下文实时实例化的两层MLP(权重非参数化、而是从输入动态生成),注意力分数本身作为持续增长的隐状态而非概率分布;在此基础上设计HyperMLP/HyperGLU,采用反向偏移(lag)布局实现时间上严格自回归的特征+序列双重动态混合,摒弃softmax与显式归一化。
  • 其它亮点
    理论层面:给出动态MLP结构的表达能力刻画(如模拟任意局部窗口注意力、逼近Transformer层);实验层面:在多个标准语言建模基准(如WikiText-2/103、PG19、OpenWebText)上,以相同参数量显著超越Softmax-Attention基线(平均+0.15~0.25 ppl);架构完全无softmax、无QKV投影,仅依赖MLP+动态权重生成;代码已开源;值得深入方向包括:动态权重生成器的归纳偏置设计、与状态空间模型(SSM)的统一分析、以及在多模态序列建模中的迁移。
  • 相关研究
    Lin et al., 'A Survey of Transformers', 2022; Dao et al., 'FlashAttention', 2022; Gu et al., 'HiPPO and S4', 2021; Press et al., 'Train Short, Test Long', 2022; Bolya et al., 'MLP-Mixer: An All-MLP Architecture for Vision', 2021
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问