- 简介注意力机制是Transformer架构的关键部分。它是一种将每个序列元素转换为值的加权和的序列到序列映射。权重通常是通过键和查询之间的点积的softmax获得的。最近的研究探索了transformers中替代softmax attention的方法,如ReLU和sigmoid激活。在这项工作中,我们重新审视了sigmoid attention并进行了深入的理论和实证分析。从理论上讲,我们证明了具有sigmoid attention的transformers是通用函数逼近器,并且与softmax attention相比,从改进的规律性中受益。通过详细的实证分析,我们确定了在训练的早期阶段稳定大的初始注意力规范是sigmoid attention模型成功训练的关键因素,优于之前的尝试。我们还介绍了FLASHSIGMOID,一种硬件感知和内存高效的sigmoid attention实现,相比于H100 GPU上的FLASHATTENTION2,推理核心速度提高了17%。跨语言、视觉和语音的实验表明,适当归一化的sigmoid attention在广泛的领域和规模上与softmax attention的表现相当,之前对sigmoid attention的尝试无法完全实现这一点。我们的工作统一了之前的研究成果,并建立了sigmoid attention作为transformers中softmax的替代品的最佳实践。
- 图表
- 解决问题本论文旨在重新审视sigmoid attention在transformer中的应用,并进行深入的理论和实证分析,以探究其是否可以作为softmax attention的替代方案。
- 关键思路sigmoid attention可以作为softmax attention的替代方案,因为它是一种通用的函数逼近器,并且在正则化方面具有优势。稳定初始注意力规范是成功训练sigmoid attention模型的关键因素。
- 其它亮点论文提出了FLASHSIGMOID,这是一种硬件感知且内存效率高的sigmoid attention实现,可以在H100 GPU上实现17%的推理核心加速。实验结果表明,适当归一化的sigmoid attention可以在语言、视觉和语音等多个领域和规模上与softmax attention相匹配。论文还提供了sigmoid attention的最佳实践,可以作为softmax attention的替代方案。
- 最近的相关研究包括对softmax attention的改进,如ReLU和sigmoid activations。
沙发等你来抢
去评论
评论
沙发等你来抢