
报告主题:基于动态掩码的稀疏注意力机制
报告日期:09月05日(周五) 14:30-15:30
香港科技大学(广州)与北京智源研究院联合提出的 Trainable Dynamic Mask Sparse Attention 旨在保持模型表达能力的同时,显著降低长序列大模型的注意力计算与显存开销。我们将 Flash Attention 的块级重计算+流式内存结构,与动态掩码的可学习可裁剪机制融合,通过在前向与反向中对整块全零注意力区域进行即时跳过,实现端到端的结构化稀疏训练。方法不仅适用于推理加速,更直接面向预训练/指令微调阶段的可学习稀疏模式构建,为高性价比、可自适应的注意力结构提供了体系化实现路径。与仅做推理剪枝或静态规则过滤的方法不同,该机制在训练过程中即可动态更新保留区域,从而将模型结构搜索融入真实梯度反馈循环。
论文链接: https://arxiv.org/abs/2508.02124
代码仓库:https://github.com/SmallDoges/flash-dmattn
基于此, 我们提出:
1. 提出“可训练动态掩码稀疏注意力”——通过可学习的评分/偏置与掩码生成逻辑,对注意力矩阵进行块级显式稀疏化,同时保持端到端可微。
2. 统一前向与反向的块级全零判定机制:可数学化证明, 在正向的2个 GEMM, 反向的 5 个 GEMM, 为零贡献时整体跳过,节省时间与能耗。
3. 共享内存别名复用 + 屏障顺序严格化,在不增加显存峰值的前提下引入稀疏与可学习偏置通路。
石竞泽,香港科技大学(广州)实习生,师从骆昱宇教授。其研究聚焦于大模型高效架构,包括稀疏注意力、微粒度嵌入MoE等。社区方面,参与开源项目包括Transformers、PyTorch等,累计获得300K Star。
吴壹凡,现为香港科技大学(广州)数据科学与分析学域二年级红鸟硕士,师从骆昱宇教授,研究聚焦图表理解与大模型推理。此前于南京信息工程大学获学士学位,并在本科期间获得国家公派资格赴加拿大维多利亚大学担任为期三个月的科研助理。积极参与开源社区(如 SmallDoge、Openmanus、Camel 等),以第一作者或合作者身份在 EMNLP、IEEE VIS 等顶级会议与期刊发表多篇论文,另有若干论文投稿至2025NIPS及TVCG等顶级会议和期刊。

扫码报名
更多热门报告
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢