本文致力于作为一个"讲解+导航式"的blog给初次接触NLP和Transformer的纯小白提高学习效率,以理解Transformer并动手搞定翻译任务的coding为目标补充有助于理解的背景知识,具体举例解释每个概念和流程(讲解功能)。每节小节部分会给出本节主要参考的原始blog、视频等资料,想进一步深入理解原理和实现coding的读者可以根据链接查阅(导航功能),因此也可以单纯把本文当做一个Transformer相关讲解的链接汇总使用。

Key Words导航

  • 第一章:W2V、One-Hot编码、Embedding、ELMo、GPT、BERT预训练;
  • 第二章:tokenize、padding、文本预处理(施工中);
  • 第三章:Encoder-Decoder、Seq2Seq、计划采样、束搜索、BLEU;
  • 第四章:Attention、Query/ Key/ Value、非参/参数化注意力回归、Seq2Seq+Attention;
  • 第五章:自注意力机制、多头自注意力、位置编码、层归一及残差网络、Transformer代码;
  • 第六章:环境配置、anaconda/python/pycharm/pytorch、jupyter notebook(施工中)

核心参考资料***(时间紧任务重看完这四个就能搞懂Transformer跑Coding)

补充参考资料**(对以上资料的系统性补充)

其他资料*(过于学术/基础/cv等相关领域延伸,还没看但是觉得很有用,按需阅读)

Stanford CS224n_Natural Language Processing with Deep Learning

知乎作者 @LooperXX Stanford CS224n笔记列表

知乎作者 @张贤同学 Pytorch学习笔记汇总

Readpaper在线论文阅读平台 Attention is all you need 论文原文

以及其他作者对各个子模块的讲解和分析,会在每章小结给出链接,感谢各位。

还有一点点没写完的部分不影响transformer的理解,使用 ⚠️施工中⚠️进行标注,后续更新。

内容中包含的图片若涉及版权问题,请及时与我们联系删除