Deep learning for pedestrians: backpropagation in Transformers

向作者提问

NEW

简介

本文是我们在之前关于卷积神经网络中反向传播的向量化推导工作的延续。沿用先前建立的原则和符号体系，我们此次将重点转向基于Transformer的下一个词预测架构。为此，我们将轻量级、无需索引的推导方法应用于嵌入层、多头自注意力机制以及层归一化等新型网络层。此外，我们还给出了LoRA层的梯度表达式，以说明参数高效的微调技术。既然已有大量工具可自动完成反向传播，为何还要费力手动推导？事实上，当尝试对损失函数求导时，任何对前向传播过程中数值流动理解上的不足都将暴露无遗。通过亲手完成反向传播过程，我们能够更深入地理解每个操作如何影响最终输出。本文还附带了一个极简GPT类网络的完整PyTorch实现，并提供了该网络所有梯度更新的解析表达式。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在通过手动推导基于Transformer的下一个词预测架构中的反向传播过程，解决当前深度学习框架自动微分导致的研究者对梯度传播机制理解不足的问题。虽然自动微分工具广泛存在，但缺乏对前向和后向传播中数学细节的理解会阻碍模型设计和调试能力的提升。这并非一个全新问题，但在大模型时代对可解释性和高效微调日益重要的背景下具有现实意义。
关键思路

采用轻量级、无索引、向量化的方式来统一且简洁地表达Transformer中各类层（如嵌入层、多头自注意力、层归一化）以及LoRA微调模块的梯度计算过程。延续此前在CNN中建立的符号体系，强调‘手算反向传播’作为深化理解的手段，而非替代自动微分。其新意在于将原本复杂的逐元素求导转化为清晰的矩阵运算表达式，提升了教学与理论分析的可读性。
其它亮点

提供了所有主要模块（包括LoRA）完整的解析梯度表达式，并配套实现了最小化的GPT-like网络PyTorch代码，实现了理论与实践的对应。实验设计聚焦于原理验证而非性能突破，使用小型合成或标准语言建模数据集（如WikiText或shakespeare-char）进行验证。代码已开源，极大增强了可复现性。值得深入的方向包括将该方法论扩展到其他注意力变体（如稀疏注意力）、解码器-编码器结构，以及用于教学场景的可视化工具开发。
相关研究

1. Attention Is All You Need (Vaswani et al., 2017) 2. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019) 3. LoRA: Low-Rank Adaptation of Large Language Models (Hu et al., 2021) 4. A Mathematical Framework for Transformer Optimizations (Wang et al., 2022) 5. The Annotated Transformer (Rush, 2018) 6. Backpropagation in Convolutional Neural Networks: A Vectorized Approach (作者先前工作)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问