本文主要对基本的Attention机制以及Attention的变体方面的工作进行了梳理,通过阅读文章可以了解到Attention机制的易用性和有效性,能够对Attention机制在不同任务和场景中的应用有更深的体会。
目前深度学习中热点之一就是注意力机制(Attention Mechanisms)。Attention源于人类视觉系统,当人类观察外界事物的时候,一般不会把事物当成一个整体去看,往往倾向于根据需要选择性的去获取被观察事物的某些重要部分,比如我们看到一个人时,往往先Attend到这个人的脸,然后再把不同区域的信息组合起来,形成一个对被观察事物的整体印象。
「同理,Attention Mechanisms可以帮助模型对输入的每个部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断,同时不会对模型的计算和存储带来更大的开销,这也是Attention Mechanism应用如此广泛的原因」
本篇文章分为上下两个部分,上部分主要围绕核心的Attention机制以及Attention的变体展开,而下半部分Attention机制的各种变体,包括但不限于:
- 「基于强化学习的注意力机制」:选择性的Attend输入的某个部分
- 「全局&局部注意力机制」:其中,局部注意力机制可以选择性的Attend输入的某些部分
- 「多维度注意力机制」:捕获不同特征空间中的Attention特征。
- 「多源注意力机制」:Attend到多种源语言语句
- 「层次化注意力机制」:word->sentence->document
- 「注意力之上嵌一个注意力」:和层次化Attention有点像。
- 「多跳注意力机制」:和前面两种有点像,但是做法不太一样。且借助残差连接等机制,可以使用更深的网络构造多跳Attention。使得模型在得到下一个注意力时,能够考虑到之前的已经注意过的词。
- 「使用拷贝机制的注意力机制」:在生成式Attention基础上,添加具备拷贝输入源语句某部分子序列的能力。
- 「基于记忆的注意力机制」:把Attention抽象成Query,Key,Value三者之间的交互;引入先验构造记忆库。
- 「自注意力机制」:自己和自己做attention,使得每个位置的词都有全局的语义信息,有利于建立长依赖关系。
两部分的原始链接分别分:
感兴趣的可以戳链接。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢