【论文标题】Causal Attention for Vision-Language Tasks
【因果推断】面向视觉-语言任务的因果注意力(CVPR 2021)
【论坛网址】https://hub.baai.ac.cn/view/6858
【作者团队】Xu Yang, Hanwang Zhang, Guojun Qi, Jianfei Cai
【机构】南洋理工大学,莫纳什大学
【发表时间】2021/3/5
【论文链接】https://arxiv.org/abs/2103.03493
【代码链接】https://github.com/yangxuntu/catt
【推荐理由】
本文收录于CVPR 2021,来自南洋理工大学&莫纳什大学的研究人员提出一种因果注意力用于消除现有的视觉-语言模型中难以捉摸的混淆因素。
注意力机制是目前视觉-语言模型中非常有效且重要的模块,它可以自动选择信号处理从而关注与模型更相关的部分。但是,由于注意力权重的生成过程是不受监督的,因此注意力权重不可避免地被数据集偏差所误导,从而误导注意力模块将注意力集中在训练数据中的虚假相关性上(如图所示),从而破坏了模型的泛化性。
本文提出一种因果注意力用于消除现有的视觉-语言模型中难以捉摸的混淆因素,由于通常看不到混淆因素,因此本文使用前门调整来实现因果干预,而无需假设已经观测的混淆因素。具体来说,因果注意力包括(1)样本内注意力(IS-AAT)和(2)跨样本注意力(CS-ATT),后者可以将其他样本强行带入每个IS-AAT,从而模仿因果干预,模型结果如图所示。此外,这种因果注意力可以很方便的迁移到现有的注意力模型中,作者在图像描述,视觉问答和大规模视觉-语言预训练模型中进行实验,实验结果可以看出因果注意力极大地改善了现有视觉-语言任务的质量,特别地,因果注意力在大规模预训练任务中存在巨大的潜力,可以用更少的数据和更少的计算能力得到更好的性能。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢