【标题】Learning Cooperative Neural Modules for Stylized Image Captioning

【作者团队】Xinxiao Wu, Wentian Zhao, Jiebo Luo

【发表日期】2022.7.22

【论文链接】https://link.springer.com/content/pdf/10.1007/s11263-022-01636-2.pdf

【推荐理由】目前风格化图像字幕的解码过程仍然难以同时捕捉句法结构、推断语义概念和表达语言风格。考虑到心理语言学,本文提出了一种新颖的风格化图像字幕方法,通过在强化学习范式下训练三个协作神经模块,在多通道解码过程中生成风格化句子。称为语法模块的低级神经模块首先生成程式化句子的整体句法结构。接下来是两个高级神经模块,即概念模块和风格模块,分别包含描述事实内容的词和表达语言风格的词。由于这三个模块对风格化句子的不同方面做出贡献,即流畅性、事实内容的相关性和风格准确性,鼓励模块通过为不同的动作设计不同的奖励来专注于自己的任务。本文还设计了一种注意力机制来促进高层和低层模块之间的通信。在注意力机制的帮助下,高层模块能够考虑到句子的全局结构,并保持事实内容和语言风格之间的一致性。