报告主题:Error-Free Linear Attention|从动力学微分方程中得到无误差的线性注意力

报告日期:01月28日(周三) 14:30-15:30

报告要点:

本期报告将由复旦大学张迪进行分享。

线性时间注意力和状态空间模型(SSM)有望解决采用软最大注意力的长上下文语言模型中的二次成本瓶颈。我们引入无误线性注意力(EFLA),这是一种数值稳定、完全并行且广义化的δ规则表述。具体来说,我们将在线学习更新表述为连续时间动力系统,并证明其精确解不仅可实现,而且可以线性时间内全并行计算。通过利用动力学矩阵的秩-1结构,我们直接推导出与无限阶Runge-Kutta方法对应的精确闭式解。这种注意力机制理论上无误差累积,完美捕捉连续动力学,同时保持线性时间复杂性。通过大量实验,我们证明EFLA在噪声环境中实现了稳健的性能,实现了比DeltaNet更低的语言建模困惑度和更优于下游基准测试的表现,而无需引入额外参数。我们的工作为构建高保真度、可扩展的线性时间注意力模型提供了新的理论基础。

相关论文:

Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics 

报告嘉宾:

张迪是复旦大学博士三年级(即将毕业)的博士研究生,师从欧阳万里教授。他的研究方向聚焦于大语言模型、多模态推理与科学智能(AI for Science),重点致力于将领域知识与大型推理模型相连接。他曾共同作者多项具有影响力的工作,包括 *ChemLLM*、*ChemVLM* 与 *LLama-berry*,推动了大语言模型在科学发现与推理方面的前沿进展。他的论文累计获得 700 余次引用,并与来自斯坦福大学、NVIDIA Research 以及上海人工智能实验室等机构的研究者开展合作。他也曾担任 ACL、ICLR、NeurIPS 和 CVPR 等学术会议的审稿人。

PC端观看地址



更多热门内容

内容中包含的图片若涉及版权问题,请及时与我们联系删除