直播｜线性注意力最新工作，复旦大学，从动力学微分方程中得到无误差的线性注意力

报告主题：Error-Free Linear Attention｜从动力学微分方程中得到无误差的线性注意力

报告日期：01月28日（周三） 14:30-15:30

报告要点：

本期报告将由复旦大学张迪进行分享。

线性时间注意力和状态空间模型（SSM）有望解决采用软最大注意力的长上下文语言模型中的二次成本瓶颈。我们引入无误线性注意力（EFLA），这是一种数值稳定、完全并行且广义化的δ规则表述。具体来说，我们将在线学习更新表述为连续时间动力系统，并证明其精确解不仅可实现，而且可以线性时间内全并行计算。通过利用动力学矩阵的秩-1结构，我们直接推导出与无限阶Runge-Kutta方法对应的精确闭式解。这种注意力机制理论上无误差累积，完美捕捉连续动力学，同时保持线性时间复杂性。通过大量实验，我们证明EFLA在噪声环境中实现了稳健的性能，实现了比DeltaNet更低的语言建模困惑度和更优于下游基准测试的表现，而无需引入额外参数。我们的工作为构建高保真度、可扩展的线性时间注意力模型提供了新的理论基础。

相关论文：

Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics

报告嘉宾：

张迪是复旦大学博士三年级（即将毕业）的博士研究生，师从欧阳万里教授。他的研究方向聚焦于大语言模型、多模态推理与科学智能（AI for Science），重点致力于将领域知识与大型推理模型相连接。他曾共同作者多项具有影响力的工作，包括 *ChemLLM*、*ChemVLM* 与 *LLama-berry*，推动了大语言模型在科学发现与推理方面的前沿进展。他的论文累计获得 700 余次引用，并与来自斯坦福大学、NVIDIA Research 以及上海人工智能实验室等机构的研究者开展合作。他也曾担任 ACL、ICLR、NeurIPS 和 CVPR 等学术会议的审稿人。

PC端观看地址

更多热门内容

内容中包含的图片若涉及版权问题，请及时与我们联系删除

直播｜线性注意力最新工作，复旦大学，从动力学微分方程中得到无误差的线性注意力

评论列表

评论