- 简介多模态融合的本质在于利用不同模态固有的互补信息。然而,目前普遍采用的融合方法仍依赖于传统的神经网络架构,无法充分捕捉模态之间的交互动态,特别是在存在复杂的内部和跨模态相关性的情况下。最近,状态空间模型(SSM)的发展,特别是Mamba模型的出现,成为了有希望的竞争者。特别是,它的状态演化过程意味着更强的模态融合范式,使得基于SSM的多模态融合成为一个有吸引力的方向。然而,由于其硬件感知并行设计,融合多个模态对于SSM来说是具有挑战性的。因此,本文提出了耦合SSM模型,用于耦合多个模态的状态链,同时保持内部模态状态过程的独立性。具体而言,在我们的耦合方案中,我们设计了一种跨模态的隐藏状态转移方案,其中当前状态依赖于其自身链的状态和前一个时间步的相邻链的状态。为了完全符合硬件感知并行性,我们设计了一种快速的耦合状态转移方案,并推导出相应的全局卷积核以实现并行化。通过对CMU-MOSEI、CH-SIMS和CH-SIMSV2等多领域输入的广泛实验,验证了我们模型相对于当前最先进的方法的有效性,在三个数据集上的F1-Score分别提高了0.4%、0.9%和2.3%,推理速度提高了49%,GPU内存节省了83.7%。结果表明,耦合Mamba模型能够增强多模态融合能力。
- 图表
- 解决问题本论文旨在解决多模态融合中存在的挑战,特别是在存在复杂的内部和跨模态相关性的情况下,使用传统神经网络架构的融合方法不足以捕捉交互动态的问题。
- 关键思路本论文提出了耦合SSM模型,用于耦合多个模态的状态链,同时保持内部模态状态过程的独立性。具体来说,在耦合方案中,作者设计了一种跨模态隐藏状态转换方案,在该方案中,当前状态依赖于其自身链和相邻链在上一个时间步的状态。为了完全符合硬件感知并行性,作者设计了一个快速耦合状态转换方案,并推导出相应的全局卷积核以实现并行化。
- 其它亮点本论文的亮点包括:在CMU-MOSEI、CH-SIMS、CH-SIMSV2等多个数据集上进行了广泛的实验验证,相比当前最先进的方法,F1-Score分别提高了0.4%、0.9%和2.3%,推理速度提高了49%,GPU内存节省了83.7%;耦合Mamba模型能够实现增强的多模态融合。
- 在这个领域中,最近的相关研究包括:State Space Models (SSMs)、Mamba模型等。
沙发等你来抢
去评论
评论
沙发等你来抢