图像描述｜用于图像描述的网状记忆存储Transformer(CVPR 2020）

【论文标题】Meshed-Memory Transformer for Image Captioning 【图像描述】用于图像描述的网状记忆存储Transformer(CVPR 2020）【论坛网址】https://hub.baai.ac.cn/view/6119 【作者团队】Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, Rita Cucchiara 【机构】摩德纳－雷焦·艾米里亚大学【发表时间】2019/12/17 【代码链接】https://github.com/aimagelab/meshed-memory-transformer 【论文链接】https://arxiv.org/abs/1912.08226 【推荐理由】本文收录于CVPR 2020，提出了一种用于图像描述的网状存储Transformer用于学习图像区域之间关系的多级表示形式，并利用类网状的连通性来利用高级和低级特征。基于Transformer结构的技术代表着诸如机器翻译和语言理解之类的序列建模任务中的最新技术。然而，它们在诸如图像描述之类的多模式上下文中的适用性仍在很大程度上还未被研究。为了填补这一空白，我们提出了一种用于图像描述的网状存储Transformer。该体系结构改进了图像编码和语言生成步骤：它学习了图像区域之间关系的多级表示形式，整合了所学的先验知识，并在解码阶段使用了类似网状的连通性来利用低级和高级特征。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

图像描述｜ 用于图像描述的网状记忆存储Transformer(CVPR 2020）

评论

图像描述｜用于图像描述的网状记忆存储Transformer(CVPR 2020）