【标题】Multimodal feature fusion and exploitation with dual learning and reinforcement learning for recipe generation

【作者团队】Mengyang Zhang, Guohui Tian, Huanbing Gao, Shaopeng Liu, Ying Zhang

【发表日期】2022.7.9

【论文链接】https://www.sciencedirect.com/science/article/pii/S1568494622004781

【推荐理由】食谱属于具有烹饪逻辑的长段落。由于图像和文本之间的差距,从图像和食物名称到食谱在 VQA(视觉问答)中更具挑战性。尽管多模态特征融合作为 VQA 中的典型求解器,在大多数情况下都被采用以提高准确性,但通过这种方式获得的融合特征很难为保持生成文本中的逻辑提供指导。在本文中,引入成分以增强食物图像和食谱之间的关系,因为它们可以在很大程度上反映烹饪逻辑,并采用对偶学习通过从生产的食谱中重构成分来提供补充视图。为了充分利用成分来生产有效的食谱,在正向流中通过注意力机制将成分融合成图像和食物名称,在反向流中,重构器旨在重现食谱中的成分。此外,强化学习用于指导成分重建,以明确保留融合信息中的有效特征。大量的实验表明,更多的注意力被分配到产生有效的配方上,烧蚀研究表明了所提出方法中不同成分的合理性。


内容中包含的图片若涉及版权问题,请及时与我们联系删除