【论文标题】Multimodal Fusion Refiner Networks 【作者团队】Sethuraman Sankaran, David Yang, Ser-Nam Lim 【发表时间】2021/04/08 【机构】Facebook 人工智能研究院 【论文链接】https://arxiv.org/abs/2104.03435

【推荐理由】 本文出自 Facebook 人工智能研究院,作者将多模态融合网络与一个解码模块结合在一起,确保了在潜在的融合空间中对淡漠和融合表征进行强编码,从而实现了优于目前最优的多模态融合网络的性能。

依赖于多模态信息的任务通常包括一个融合模块,它将来自不同模态的信息组合在一起。在这项本文中,作者开发了一个更精细的融合网络(ReFNet),使融合模块能够结合强单模表示和强多模表示。ReFNet 将融合网络与一个解码/解耦模块结合在一起,该模块采用了以模态为中心的责任条件。该方法通过确保在潜在融合空间中对单模和融合表征进行强编码,解决了现有多模态融合框架中的巨大性能缺陷。 本文作者证明,改进的融合网络可以提高强大的基线融合模块的性能,如多模态 Transformer。我们在一定的条件下证明了该算法的有效性,并在数值实验中得到了强有力的经验结果支持。这些图结构通过将 ReFNet 与一个多相似对比损失函数相结合而得到进一步加强。精修融合网络的模块化特性使得它可以很容易地与不同的融合架构结合在一起。此外,精修步骤可以被用于对未标记的数据集进行预训练,从而利用无监督数据来提高性能。作者在三个数据集上展示了精修融合网络的能力,并进一步表明它们在仅仅使用一小部分标记数据时就能保持性能。

图 1:数据融合与精修网络设计思路

内容中包含的图片若涉及版权问题,请及时与我们联系删除