Coupled Mamba: Enhanced Multi-modal Fusion with Coupled State Space Model

2024年05月28日
  • 简介
    多模态融合的本质在于利用不同模态中固有的互补信息。然而,目前流行的融合方法依赖于传统的神经网络架构,无法充分捕捉模态之间的交互动态,特别是在存在复杂的模态内部和模态间相关性时。最近,状态空间模型(SSM)的进展,尤其是Mamba模型的典型代表,已经成为有前途的竞争者。特别地,它的状态演化过程意味着更强的模态融合范式,使得在SSM上进行多模态融合成为一个吸引人的方向。然而,由于其硬件感知并行设计,将多个模态融合到SSM中是具有挑战性的。为此,本文提出了耦合SSM模型,用于耦合多个模态的状态链,同时保持模态内部状态过程的独立性。具体而言,在我们的耦合方案中,我们设计了一种模态间隐藏状态转移方案,在该方案中,当前状态依赖于其自身链的状态和前一时间步的相邻链的状态。为了完全符合硬件感知并行性,我们设计了一个快速的耦合状态转移方案,并推导出其相应的全局卷积核以实现并行化。通过对CMU-MOSEI、CH-SIMS和CH-SIMSV2三个数据集进行多域输入的广泛实验,验证了我们的模型相对于当前最先进的方法的有效性,F1-Score分别提高了0.4\%、0.9\%和2.3\%,推理速度提高了49\%,GPU内存节约了83.7\%。结果表明,耦合Mamba模型能够增强多模态融合。
  • 图表
  • 解决问题
    本文旨在解决多模态融合中的挑战,尤其是在存在复杂的内部和跨模态相关性的情况下,传统融合方法无法捕捉交互动态的问题。
  • 关键思路
    本文提出了耦合状态空间模型(Coupled SSM)来解决多模态融合中的挑战,通过设计跨模态隐藏状态转移方案,使当前状态依赖于自身链和相邻链的状态,从而实现强大的模态融合。同时,为了充分满足硬件感知并行处理的需求,提出了加速的耦合状态转移方案,并导出了相应的全局卷积核。
  • 其它亮点
    本文在CMU-MOSEI、CH-SIMS和CH-SIMSV2数据集上进行了广泛实验,证明了耦合Mamba模型相对于当前最先进的方法的有效性,F1-Score分别提高了0.4%、0.9%和2.3%,推理速度提高了49%,GPU内存节省了83.7%。本文提出的方法值得进一步深入研究。
  • 相关研究
    最近的相关研究包括使用传统神经网络架构的多模态融合方法以及使用状态空间模型的方法,如Mamba模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论