北京理工大学|学习用于风格化图像字幕的协作神经模块

【标题】Learning Cooperative Neural Modules for Stylized Image Captioning

【作者团队】Xinxiao Wu, Wentian Zhao, Jiebo Luo

【发表日期】2022.7.22

【论文链接】https://link.springer.com/content/pdf/10.1007/s11263-022-01636-2.pdf

【推荐理由】目前风格化图像字幕的解码过程仍然难以同时捕捉句法结构、推断语义概念和表达语言风格。考虑到心理语言学，本文提出了一种新颖的风格化图像字幕方法，通过在强化学习范式下训练三个协作神经模块，在多通道解码过程中生成风格化句子。称为语法模块的低级神经模块首先生成程式化句子的整体句法结构。接下来是两个高级神经模块，即概念模块和风格模块，分别包含描述事实内容的词和表达语言风格的词。由于这三个模块对风格化句子的不同方面做出贡献，即流畅性、事实内容的相关性和风格准确性，鼓励模块通过为不同的动作设计不同的奖励来专注于自己的任务。本文还设计了一种注意力机制来促进高层和低层模块之间的通信。在注意力机制的帮助下，高层模块能够考虑到句子的全局结构，并保持事实内容和语言风格之间的一致性。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

北京理工大学|学习用于风格化图像字幕的协作神经模块

评论列表

评论