本文致力于作为一个"讲解+导航式"的blog给初次接触NLP和Transformer的纯小白提高学习效率,以理解Transformer并动手搞定翻译任务的coding为目标,补充有助于理解的背景知识,具体举例解释每个概念和流程(讲解功能)。每节小节部分会给出本节主要参考的原始blog、视频等资料,想进一步深入理解原理和实现coding的读者可以根据链接查阅(导航功能),因此也可以单纯把本文当做一个Transformer相关讲解的链接汇总使用。
Key Words导航:
- 第一章:W2V、One-Hot编码、Embedding、ELMo、GPT、BERT预训练;
- 第二章:tokenize、padding、文本预处理(施工中);
- 第三章:Encoder-Decoder、Seq2Seq、计划采样、束搜索、BLEU;
- 第四章:Attention、Query/ Key/ Value、非参/参数化注意力回归、Seq2Seq+Attention;
- 第五章:自注意力机制、多头自注意力、位置编码、层归一及残差网络、Transformer代码;
- 第六章:环境配置、anaconda/python/pycharm/pytorch、jupyter notebook(施工中)
核心参考资料***(时间紧任务重看完这四个就能搞懂Transformer跑Coding)
- 李沐《动手学深度学习》视频 (51-53/ 60-68)及 第二版预览版电子书(章节8.1-8.4/ 9.5-9.8/ 10.1-10.7)
- Hugging Face Transformer Course
- Jay Alammar_The Illustrated Transformer 可视化讲解
- HarvardNLP_The Annotated Transformer 论文解读及代码实现
补充参考资料**(对以上资料的系统性补充)
- 李沐《Transformer论文逐段精度》
- 莫烦自然语言处理NLP
- 李宏毅2020深度学习与人类语言处理
- 20210625;短教程:《Transformers》;特邀讲师:邱锡鹏教授_哔哩哔哩_bilibili
- Stanford_Speech and Language Processing_Dan Jurafsky and James H. Martin (Chapter 2/3/9/10)
- 知乎作者 @蝈蝈:CS224n笔记系列及Huggingface NLP笔记系列
其他资料*(过于学术/基础/cv等相关领域延伸,还没看但是觉得很有用,按需阅读)
Stanford CS224n_Natural Language Processing with Deep Learning
知乎作者 @LooperXX Stanford CS224n笔记列表
知乎作者 @张贤同学 Pytorch学习笔记汇总
Readpaper在线论文阅读平台 Attention is all you need 论文原文
以及其他作者对各个子模块的讲解和分析,会在每章小结给出链接,感谢各位。
还有一点点没写完的部分不影响transformer的理解,使用 ⚠️施工中⚠️进行标注,后续更新。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢