【论文标题】Bayesian Attention Modules 【注意力机制】贝叶斯注意力机制模块(NeurIPS 2020) 【论坛网址】https://hub.baai.ac.cn/view/5385 【代码链接】https://github.com/zhougroup/BAM 【作者团队】Xinjie Fan, Shujian Zhang, Bo Chen, Mingyuan Zhou 【机构】德克萨斯州大学奥斯汀分校,西安电子科技大学 【作者主页】https://xinjiefan.github.io/ 【发表时间】2020/10/20 【论文链接】https://arxiv.org/abs/2010.10604 【推荐理由】   本文收录于NeurIPS 2020会议,来自德克萨斯州大学奥斯汀分校的研究人员提出随机性的贝叶斯注意力模块用以对模型中变量间复杂的依存关系进行建模。   注意力机制作为深度神经网络中一种简单有效工具,不仅在许多领域内的相关任务都取得了非常好的效果,还增强了深度神经网络本身的可解释性。目前的注意力机制虽然提供了有用的归纳偏差,但其注意力权重通常被视为确定性变量而非随机性变量,这导致了目前注意力模块不足与对模型中变量间复杂的依存关系进行建模。   现有的研究表明利用潜在随机变量去增强确定性神经网络在很多领域都取得了突破性的进展,这种做法不仅可以提高本身模型的性能,还可以提供更好的不确定性估计。因为注意力权重本身可以理解为对齐权重,所以将注意力模块与潜在对齐模型相关联是很直观的,其中潜在对齐模型是随机的,从而使得注意力权重变得随机化。这会带来两个好处:(1)增加潜在随机变量可以增强模型获取目标数据分布中复杂依存关系的能力;(2)采用贝叶斯推理可以将先验知识构建到注意力权重的先验正则化中,并利用后验推理为模型分析和不确定性估计提供更好的基础。   基于以上分析,本文提出贝叶斯注意力模块,其中注意力权重被视为潜在的随机变量,其分布参数是通过对齐的key和query值获得,通过归一化对数正态分布或者Weibull分布,本文的模型满足了对注意力权重的单纯形约束,使得生成可重新参数化的非负随机数,使得整个训练过程可微分。本文还引入了参数是key的相关函数的上下文先验分布用以施加基于KL散度的正则化。   本文将贝叶斯注意力模块在各种注意力机制模型任务上进行实验,例如图节点分类,视觉问答,图像描述,机器翻译和语言理解,实验结果表明在各种任务相应的基准线上都取得了显著的提升。

内容中包含的图片若涉及版权问题,请及时与我们联系删除